Toolverse
Wszystkie skille

nanogpt

autor: davila7

Naucz się architektury GPT na czystym, 300-liniowym kodzie — trenuj na Shakespeare'u lub OpenWebText.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

nanoGPT to minimalistyczna implementacja GPT stworzona do nauki transformerów od podstaw. Kod liczący zaledwie ~300 linii odtwarza architekturę GPT-2 (124M parametrów) na zbiorze OpenWebText. Projekt Andreja Karpathy'ego oferuje czysty, łatwy do modyfikacji kod, idealny dla każdego, kto chce zrozumieć, jak działają duże modele językowe. Możesz trenować na małym zbiorze Shakespeare'a na CPU lub skalować na OpenWebText z wieloma GPU.

Jak używać

  1. Zainstaluj wymagane biblioteki: torch, numpy, transformers, datasets, tiktoken, wandb i tqdm za pomocą pip install.

  2. Przygotuj dane treningowe, uruchamiając skrypt przygotowujący dane dla Shakespeare'a: python data/shakespeare_char/prepare.py. Ten krok tworzy pliki train.bin i val.bin.

  3. Uruchom trening modelu za pomocą konfiguracji dla Shakespeare'a: python train.py config/train_shakespeare_char.py. Trening na CPU zajmuje około 5 minut. Konfiguracja zawiera 6 warstw transformera, 6 głowic atencji, 384-wymiarowe embeddingi i kontekst 256 znaków.

  4. Po zakończeniu treningu wygeneruj tekst za pomocą: python sample.py --out_dir=out-shakespeare-char. Model będzie generować nowe sekwencje w stylu Shakespeare'a na podstawie nauczonych wzorców.

  5. Eksperymentuj z parametrami treningu — zmień learning_rate, batch_size lub max_iters w pliku konfiguracyjnym, aby zobaczyć, jak wpływają na jakość modelu i szybkość zbieżności.

Podobne skille