Toolverse
Wszystkie skille

training-llms-megatron

autor: davila7

Trenuj ogromne modele językowe do 462B parametrów z maksymalną wydajnością GPU

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Megatron-Core to framework do trenowania dużych modeli językowych (2B–462B parametrów) z zaawansowanymi strategiami paralelizmu. Osiąga 47% efektywności obliczeniowej na GPU H100 dzięki tensorowemu, pipelineowemu i sekwencyjnemu paralelizmowi. Narzędzie jest gotowe do produkcji i wykorzystywane przy trenowaniu modeli takich jak Nemotron, LLaMA i DeepSeek. Używaj go, gdy trenujesz modele większe niż 1B parametrów i potrzebujesz maksymalnej wydajności rozproszonego trenowania.

Jak używać

  1. Zainstaluj Megatron-Core za pomocą Dockera (rekomendowane) — uruchom obraz nvcr.io/nvidia/pytorch:25.04-py3 z flagą --gpus all, lub zainstaluj pakiet bezpośrednio poleceniem pip install megatron-core.

  2. Przygotuj konfigurację paralelizmu na podstawie rozmiaru modelu — dla modelu 7B na 8 GPU użyj tensor parallel=1, pipeline parallel=1, data parallel=8; dla 70B na 64 GPU ustaw tensor parallel=4, pipeline parallel=4, data parallel=4.

  3. Skonfiguruj hiperparametry trenowania zgodnie z wybraną strategią paralelizmu i rozmiarem zestawu danych.

  4. Uruchom trenowanie rozproszone poleceniem torchrun --nproc_per_node=2 examples/run_simple_mcore_train_loop.py dla dwóch GPU, lub użyj gotowego skryptu ./examples/llama/train_llama3_8b_fp8.sh do trenowania modelu LLaMA-3 8B.

  5. Monitoruj metryki wydajności podczas trenowania, aby upewnić się, że osiągasz oczekiwaną efektywność obliczeniową (Model FLOP Utilization).

Podobne skille