T
train-with-environments
Trenuj modele z weryfikacją środowisk przy użyciu RL — konfiguruj hiperparametry i diagnozuj niestabilność
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do trenowania modeli w środowiskach weryfikacyjnych z wykorzystaniem Hosted Training lub prime-rl. Pomaga w konfigurowaniu przebiegów RL, dostrajaniu kluczowych hiperparametrów, diagnozowaniu problemów ze stabilnością, ustawianiu filtrowania trudności i oversamplingu, a także tworzeniu praktycznych pętli treningowych i ewaluacyjnych dla nowych środowisk. Idealne dla użytkowników chcących uruchomić stabilne trenowanie ze świadomością specyfiki środowiska.
Jak używać
- Zainstaluj środowisko, które chcesz trenować, używając polecenia prime env install [nazwa-środowiska]. 2. Przed rozpoczęciem długiego treningu uruchom ewaluację kanoniczną, aby zweryfikować zachowanie środowiska: prime eval run [nazwa-środowiska] -m gpt-4.1-mini -n 20 -r 3 -s. Sprawdź, czy istnieje różnorodność nagród na poziomie bazowym. 3. Wybierz ścieżkę treningu: dla większości użytkowników zacznij od Hosted Training (prime lab setup), dla zaawansowanych użytkowników z dostępem do GPU rozważ prime-rl (prime lab setup --prime-rl). 4. Skonfiguruj aliasy endpointów w pliku configs/endpoints.toml — dla testów zachowania wybierz modele instruct (seria gpt-4.1, qwen3 instruct), dla zadań wymagających głębokich rozumowań wybierz modele reasoning (seria gpt-5, qwen3 thinking). 5. Uruchom trening z konserwatywną długością przebiegu i przeanalizuj próbki na wczesnym etapie, aby zdiagnozować ewentualną niestabilność lub problemy z hiperparametrami. 6. Przed uruchomieniem długich przebiegów treningowych opublikuj środowisko, aby upewnić się, że jest gotowe do produkcji.