M
miles-rl-training
Trenuj ogromne modele MoE z precyzją FP8/INT4 na skalę enterprise
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Miles to framework do reinforcement learning dedykowany treningowi dużych modeli na etapie post-treningu. Obsługuje modele MoE o rozmiarze 1TB+ z kwantyzacją FP8 i INT4, zapewnia wyrównanie train-inference na poziomie bitów oraz przyspieszenie rolloutów dzięki speculative RL. Zbudowany jako produkcyjna gałąź slime, miles rozwiązuje problemy stabilności treningu, precyzji niskiej bitowości i maksymalnej przepustowości w środowiskach enterprise.
Jak używać
- Zainstaluj miles za pomocą Dockera (zalecane) lub pip, upewniając się, że masz zainstalowane zależności: sglang ≥0.2.3, ray, torch ≥2.0.0 i transformers ≥4.40.0. 2. Przygotuj swój model MoE (np. DeepSeek V3 lub Qwen3-MoE) i dataset do treningu reinforcement learning. 3. Skonfiguruj parametry treningu, wybierając tryb precyzji: Unified FP8 dla pełnego end-to-end FP8, INT4 QAT dla modeli 1TB+ na pojedynczej maszynie, lub R3 (Rollout Routing Replay) dla wyrównania ekspertów w architekturze MoE. 4. Włącz Speculative RL z online SFT draft modelami, aby uzyskać przyspieszenie rolloutów o 25%+, oraz Zero-Copy Weight Sync dla optymalizacji synchronizacji wag przez CUDA IPC. 5. Uruchom trening, korzystając z optymalizacji na poziomie kernela (FlashAttention-3, DeepGEMM) i technik TIS/MIS do korekcji off-policy. 6. Monitoruj wyrównanie train-inference i stabilność treningu — miles zapewnia bit-wise identyczne rezultaty między fazą treningu a inferencji.
Podobne skille
B
better-auth-best-practices
autor: novuhq
Bezpieczeństwo
1148
A
accessibility-compliance
autor: wshobson
Bezpieczeństwo
2173
O
obsidian
autor: gapmiss
Bezpieczeństwo
14111
R
reviewing-code
autor: CaptainCrouton89
Bezpieczeństwo
1493
S
solidity-security
autor: wshobson
Bezpieczeństwo
10105
W
windows-ui-automation
autor: martinholovsky
Bezpieczeństwo
10115