nanogpt

Name: nanogpt
Author: davila7

autor: davila7

Naucz się architektury GPT na czystym, 300-liniowym kodzie — trenuj na Shakespeare'u lub OpenWebText.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

nanoGPT to minimalistyczna implementacja GPT stworzona do nauki transformerów od podstaw. Kod liczący zaledwie ~300 linii odtwarza architekturę GPT-2 (124M parametrów) na zbiorze OpenWebText. Projekt Andreja Karpathy'ego oferuje czysty, łatwy do modyfikacji kod, idealny dla każdego, kto chce zrozumieć, jak działają duże modele językowe. Możesz trenować na małym zbiorze Shakespeare'a na CPU lub skalować na OpenWebText z wieloma GPU.

Jak używać

Zainstaluj wymagane biblioteki: torch, numpy, transformers, datasets, tiktoken, wandb i tqdm za pomocą pip install.
Przygotuj dane treningowe, uruchamiając skrypt przygotowujący dane dla Shakespeare'a: python data/shakespeare_char/prepare.py. Ten krok tworzy pliki train.bin i val.bin.
Uruchom trening modelu za pomocą konfiguracji dla Shakespeare'a: python train.py config/train_shakespeare_char.py. Trening na CPU zajmuje około 5 minut. Konfiguracja zawiera 6 warstw transformera, 6 głowic atencji, 384-wymiarowe embeddingi i kontekst 256 znaków.
Po zakończeniu treningu wygeneruj tekst za pomocą: python sample.py --out_dir=out-shakespeare-char. Model będzie generować nowe sekwencje w stylu Shakespeare'a na podstawie nauczonych wzorców.
Eksperymentuj z parametrami treningu — zmień learning_rate, batch_size lub max_iters w pliku konfiguracyjnym, aby zobaczyć, jak wpływają na jakość modelu i szybkość zbieżności.

Podobne skille

reverse-engineering-tools

autor: gmh5225

Przewodnik po narzędziach inżynierii wstecznej dla badań bezpieczeństwa gier

Bezpieczeństwo

3168

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

skill-writer

autor: pytorch

Twórz umiejętności agenta Claude z przewodnikiem po strukturze i najlepszych praktykach

Bezpieczeństwo

15116

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109