distributed-llm-pretraining-torchtitan

Name: distributed-llm-pretraining-torchtitan
Author: davila7

autor: davila7

Trenuj ogromne modele językowe na setkach GPU-ów z PyTorch i równoległością 4D

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Data Science
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Umożliwia rozproszone pretraining modeli LLM (Llama 3.1, DeepSeek V3 i inne) przy użyciu TorchTitan — natywnej platformy PyTorch do szkolenia na dużą skalę. Obsługuje 4D parallelism (FSDP2, tensor parallel, pipeline parallel, context parallel), Float8, torch.compile i rozproszone checkpointy. Skaluje się od 8 do 512+ GPU-ów z przyspeszeniem 65%+ na kartach H100 w porównaniu do standardowych podejść.

Jak używać

Zainstaluj TorchTitan za pomocą pip install torchtitan lub klonując repozytorium PyTorch i instalując zależności z requirements.txt. Wymaga PyTorch w wersji 2.6.0 lub nowszej.
Pobierz tokenizer modelu, który chcesz trenować. Przejdź na https://huggingface.co/settings/tokens, wygeneruj token dostępu, a następnie uruchom python scripts/download_hf_assets.py --repo_id meta-llama/Llama-3.1-8B --assets tokenizer --hf_token=TWÓJ_TOKEN (zastąp TWÓJ_TOKEN swoim tokenem HuggingFace).
Przygotuj plik konfiguracji treningowej w formacie TOML. Możesz użyć istniejącego szablonu z ./torchtitan/models/llama3/train_configs/llama3_8b.toml lub stworzyć własny, definiując parametry takie jak folder wyjściowy, rozmiar modelu i ustawienia paralelizacji.
Uruchom trening na dostępnych GPU-ach, wykonując ./run_train.sh z wskazaniem pliku konfiguracji. Na pojedynczym węźle z 8 GPU-ami użyj CONFIG_FILE="./torchtitan/models/llama3/train_configs/llama3_8b.toml" ./run_train.sh.
Monitoruj postęp treningowy i zarządzaj checkpointami. TorchTitan automatycznie zapisuje punkty kontrolne w folderze dump_folder zdefiniowanym w konfiguracji, co umożliwia wznowienie treningów w razie przerwania.

Podobne skille

data-storytelling

autor: wshobson

Zamień dane w przekonujące opowieści dla decydentów i inwestorów

Data Science

26105

infographic-creation

autor: antvis

Przekształć tekst w piękne infografiki za pomocą szablonów i wizualizacji danych

Data Science

60199

xlsx

autor: anthropics

Twórz, edytuj i analizuj arkusze kalkulacyjne z formułami i wykresami

Data Science

40128

market-analysis

autor: xbklairith

Analiza rynków z wskaźnikami technicznymi, wsparciem i oporem, trendami multi-timeframe

Data Science

29144

web-artifacts-builder

autor: anthropics

Twórz zaawansowane artefakty internetowe w Claude z React, Tailwind i shadcn/ui

Data Science

37124

skill-creator

autor: anthropics

Twórz umiejętności dla Claude'a – rozszerz jego możliwości o specjalistyczną wiedzę i przepływy pracy

Data Science

59147