training-llms-megatron
Trenuj ogromne modele językowe do 462B parametrów z maksymalną wydajnością GPU
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Megatron-Core to framework do trenowania dużych modeli językowych (2B–462B parametrów) z zaawansowanymi strategiami paralelizmu. Osiąga 47% efektywności obliczeniowej na GPU H100 dzięki tensorowemu, pipelineowemu i sekwencyjnemu paralelizmowi. Narzędzie jest gotowe do produkcji i wykorzystywane przy trenowaniu modeli takich jak Nemotron, LLaMA i DeepSeek. Używaj go, gdy trenujesz modele większe niż 1B parametrów i potrzebujesz maksymalnej wydajności rozproszonego trenowania.
Jak używać
Zainstaluj Megatron-Core za pomocą Dockera (rekomendowane) — uruchom obraz
nvcr.io/nvidia/pytorch:25.04-py3z flagą--gpus all, lub zainstaluj pakiet bezpośrednio poleceniempip install megatron-core.Przygotuj konfigurację paralelizmu na podstawie rozmiaru modelu — dla modelu 7B na 8 GPU użyj tensor parallel=1, pipeline parallel=1, data parallel=8; dla 70B na 64 GPU ustaw tensor parallel=4, pipeline parallel=4, data parallel=4.
Skonfiguruj hiperparametry trenowania zgodnie z wybraną strategią paralelizmu i rozmiarem zestawu danych.
Uruchom trenowanie rozproszone poleceniem
torchrun --nproc_per_node=2 examples/run_simple_mcore_train_loop.pydla dwóch GPU, lub użyj gotowego skryptu./examples/llama/train_llama3_8b_fp8.shdo trenowania modelu LLaMA-3 8B.Monitoruj metryki wydajności podczas trenowania, aby upewnić się, że osiągasz oczekiwaną efektywność obliczeniową (Model FLOP Utilization).
Podobne skille
accessibility-compliance
autor: wshobson
ui-audit
autor: openclaw
openapi-spec-generation
autor: wshobson
python-expert
autor: Shubhamsaboo
zendesk
autor: vm0-ai
solidity-security
autor: wshobson