slime-rl-training
Trenuj duże modele językowe z wzmacnianiem poprzez Megatron i SGLang
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia post-training modeli LLM z reinforcement learning za pomocą frameworku slime, łączącego Megatron-LM do treningu z SGLang do generowania danych. Skorzystaj z niego, gdy potrzebujesz trenować modele GLM, Qwen3, DeepSeek V3 lub Llama 3 z niestandardowymi workflow'ami generowania danych i pełnym wsparciem dla równoległa obliczeń (tensor parallelism, pipeline parallelism, data parallelism).
Jak używać
Zainstaluj wymagane zależności: sglang-router w wersji 0.2.3 lub wyższej, ray, torch w wersji 2.0.0 lub wyższej oraz transformers w wersji 4.40.0 lub wyższej. Upewnij się, że masz dostęp do repozytorium davila7 na GitHubie.
Sklonuj lub pobierz skill z folderu post-training-slime z repozytorium claude-code-templates. Umieść go w strukturze katalogów zgodnie z konwencją ai-research skills.
Przygotuj swoje dane treningowe i skonfiguruj buffer danych. Slime oferuje elastyczne zarządzanie promptami i przechowywanie próbek — zdefiniuj niestandardowy workflow generowania danych zgodnie z potrzebami Twojego modelu.
Skonfiguruj parametry treningu dla wybranego modelu (GLM-4.x, Qwen3, DeepSeek V3 lub Llama 3). Określ typ równoległa obliczeń: tensor parallelism (TP), pipeline parallelism (PP), data parallelism (DP) lub sequence parallelism (SP).
Uruchom trening za pomocą Megatron-LM z integracją SGLang do generowania rolloutów. Slime automatycznie koordynuje trenowanie z wysokowydajnym generowaniem poprzez router SGLang.
Monitoruj przebieg treningu i dostosuj parametry data buffer'a w razie potrzeby. Po zakończeniu treningu model jest gotowy do ewaluacji i wdrożenia.
Podobne skille
manim
autor: davila7
openapi-spec-generation
autor: wshobson
python-expert
autor: Shubhamsaboo
software-security
autor: project-codeguard
security-compliance
autor: davila7
windows-ui-automation
autor: martinholovsky