slime-rl-training

Name: slime-rl-training
Author: davila7

autor: davila7

Trenuj duże modele językowe z wzmacnianiem poprzez Megatron i SGLang

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

Umożliwia post-training modeli LLM z reinforcement learning za pomocą frameworku slime, łączącego Megatron-LM do treningu z SGLang do generowania danych. Skorzystaj z niego, gdy potrzebujesz trenować modele GLM, Qwen3, DeepSeek V3 lub Llama 3 z niestandardowymi workflow'ami generowania danych i pełnym wsparciem dla równoległa obliczeń (tensor parallelism, pipeline parallelism, data parallelism).

Jak używać

Zainstaluj wymagane zależności: sglang-router w wersji 0.2.3 lub wyższej, ray, torch w wersji 2.0.0 lub wyższej oraz transformers w wersji 4.40.0 lub wyższej. Upewnij się, że masz dostęp do repozytorium davila7 na GitHubie.
Sklonuj lub pobierz skill z folderu post-training-slime z repozytorium claude-code-templates. Umieść go w strukturze katalogów zgodnie z konwencją ai-research skills.
Przygotuj swoje dane treningowe i skonfiguruj buffer danych. Slime oferuje elastyczne zarządzanie promptami i przechowywanie próbek — zdefiniuj niestandardowy workflow generowania danych zgodnie z potrzebami Twojego modelu.
Skonfiguruj parametry treningu dla wybranego modelu (GLM-4.x, Qwen3, DeepSeek V3 lub Llama 3). Określ typ równoległa obliczeń: tensor parallelism (TP), pipeline parallelism (PP), data parallelism (DP) lub sequence parallelism (SP).
Uruchom trening za pomocą Megatron-LM z integracją SGLang do generowania rolloutów. Slime automatycznie koordynuje trenowanie z wysokowydajnym generowaniem poprzez router SGLang.
Monitoruj przebieg treningu i dostosuj parametry data buffer'a w razie potrzeby. Po zakończeniu treningu model jest gotowy do ewaluacji i wdrożenia.

Podobne skille

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

python-expert

autor: Shubhamsaboo

Ekspert Pythona – czysty kod, optymalizacja i best practices

Bezpieczeństwo

2777

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115