Toolverse
Wszystkie skille

miles-rl-training

autor: davila7

Trenuj ogromne modele MoE z precyzją FP8/INT4 na skalę enterprise

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Miles to framework do reinforcement learning dedykowany treningowi dużych modeli na etapie post-treningu. Obsługuje modele MoE o rozmiarze 1TB+ z kwantyzacją FP8 i INT4, zapewnia wyrównanie train-inference na poziomie bitów oraz przyspieszenie rolloutów dzięki speculative RL. Zbudowany jako produkcyjna gałąź slime, miles rozwiązuje problemy stabilności treningu, precyzji niskiej bitowości i maksymalnej przepustowości w środowiskach enterprise.

Jak używać

  1. Zainstaluj miles za pomocą Dockera (zalecane) lub pip, upewniając się, że masz zainstalowane zależności: sglang ≥0.2.3, ray, torch ≥2.0.0 i transformers ≥4.40.0. 2. Przygotuj swój model MoE (np. DeepSeek V3 lub Qwen3-MoE) i dataset do treningu reinforcement learning. 3. Skonfiguruj parametry treningu, wybierając tryb precyzji: Unified FP8 dla pełnego end-to-end FP8, INT4 QAT dla modeli 1TB+ na pojedynczej maszynie, lub R3 (Rollout Routing Replay) dla wyrównania ekspertów w architekturze MoE. 4. Włącz Speculative RL z online SFT draft modelami, aby uzyskać przyspieszenie rolloutów o 25%+, oraz Zero-Copy Weight Sync dla optymalizacji synchronizacji wag przez CUDA IPC. 5. Uruchom trening, korzystając z optymalizacji na poziomie kernela (FlashAttention-3, DeepGEMM) i technik TIS/MIS do korekcji off-policy. 6. Monitoruj wyrównanie train-inference i stabilność treningu — miles zapewnia bit-wise identyczne rezultaty między fazą treningu a inferencji.

Podobne skille