miles-rl-training

Name: miles-rl-training
Author: davila7

autor: davila7

Trenuj ogromne modele MoE z precyzją FP8/INT4 na skalę enterprise

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

Miles to framework do reinforcement learning dedykowany treningowi dużych modeli na etapie post-treningu. Obsługuje modele MoE o rozmiarze 1TB+ z kwantyzacją FP8 i INT4, zapewnia wyrównanie train-inference na poziomie bitów oraz przyspieszenie rolloutów dzięki speculative RL. Zbudowany jako produkcyjna gałąź slime, miles rozwiązuje problemy stabilności treningu, precyzji niskiej bitowości i maksymalnej przepustowości w środowiskach enterprise.

Jak używać

Zainstaluj miles za pomocą Dockera (zalecane) lub pip, upewniając się, że masz zainstalowane zależności: sglang ≥0.2.3, ray, torch ≥2.0.0 i transformers ≥4.40.0. 2. Przygotuj swój model MoE (np. DeepSeek V3 lub Qwen3-MoE) i dataset do treningu reinforcement learning. 3. Skonfiguruj parametry treningu, wybierając tryb precyzji: Unified FP8 dla pełnego end-to-end FP8, INT4 QAT dla modeli 1TB+ na pojedynczej maszynie, lub R3 (Rollout Routing Replay) dla wyrównania ekspertów w architekturze MoE. 4. Włącz Speculative RL z online SFT draft modelami, aby uzyskać przyspieszenie rolloutów o 25%+, oraz Zero-Copy Weight Sync dla optymalizacji synchronizacji wag przez CUDA IPC. 5. Uruchom trening, korzystając z optymalizacji na poziomie kernela (FlashAttention-3, DeepGEMM) i technik TIS/MIS do korekcji off-policy. 6. Monitoruj wyrównanie train-inference i stabilność treningu — miles zapewnia bit-wise identyczne rezultaty między fazą treningu a inferencji.

Podobne skille

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111

reviewing-code

autor: CaptainCrouton89

Systematyczna ocena zmian w kodzie pod kątem bezpieczeństwa, poprawności i zgodności ze specyfikacją

Bezpieczeństwo

1493

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115