nanogpt
Naucz się architektury GPT na czystym, 300-liniowym kodzie — trenuj na Shakespeare'u lub OpenWebText.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
nanoGPT to minimalistyczna implementacja GPT stworzona do nauki transformerów od podstaw. Kod liczący zaledwie ~300 linii odtwarza architekturę GPT-2 (124M parametrów) na zbiorze OpenWebText. Projekt Andreja Karpathy'ego oferuje czysty, łatwy do modyfikacji kod, idealny dla każdego, kto chce zrozumieć, jak działają duże modele językowe. Możesz trenować na małym zbiorze Shakespeare'a na CPU lub skalować na OpenWebText z wieloma GPU.
Jak używać
Zainstaluj wymagane biblioteki: torch, numpy, transformers, datasets, tiktoken, wandb i tqdm za pomocą pip install.
Przygotuj dane treningowe, uruchamiając skrypt przygotowujący dane dla Shakespeare'a: python data/shakespeare_char/prepare.py. Ten krok tworzy pliki train.bin i val.bin.
Uruchom trening modelu za pomocą konfiguracji dla Shakespeare'a: python train.py config/train_shakespeare_char.py. Trening na CPU zajmuje około 5 minut. Konfiguracja zawiera 6 warstw transformera, 6 głowic atencji, 384-wymiarowe embeddingi i kontekst 256 znaków.
Po zakończeniu treningu wygeneruj tekst za pomocą: python sample.py --out_dir=out-shakespeare-char. Model będzie generować nowe sekwencje w stylu Shakespeare'a na podstawie nauczonych wzorców.
Eksperymentuj z parametrami treningu — zmień learning_rate, batch_size lub max_iters w pliku konfiguracyjnym, aby zobaczyć, jak wpływają na jakość modelu i szybkość zbieżności.
Podobne skille
reverse-engineering-tools
autor: gmh5225
qmd
autor: tobi
llama-cpp
autor: zechenzhangAGI
windows-ui-automation
autor: martinholovsky
skill-writer
autor: pytorch
openapi-spec-generation
autor: wshobson