Toolverse
Wszystkie skille

train-with-environments

autor: PrimeIntellect-ai

Trenuj modele z weryfikacją środowisk przy użyciu RL — konfiguruj hiperparametry i diagnozuj niestabilność

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Backend
Wyświetlenia
2

O skillu

Skill do trenowania modeli w środowiskach weryfikacyjnych z wykorzystaniem Hosted Training lub prime-rl. Pomaga w konfigurowaniu przebiegów RL, dostrajaniu kluczowych hiperparametrów, diagnozowaniu problemów ze stabilnością, ustawianiu filtrowania trudności i oversamplingu, a także tworzeniu praktycznych pętli treningowych i ewaluacyjnych dla nowych środowisk. Idealne dla użytkowników chcących uruchomić stabilne trenowanie ze świadomością specyfiki środowiska.

Jak używać

  1. Zainstaluj środowisko, które chcesz trenować, używając polecenia prime env install [nazwa-środowiska]. 2. Przed rozpoczęciem długiego treningu uruchom ewaluację kanoniczną, aby zweryfikować zachowanie środowiska: prime eval run [nazwa-środowiska] -m gpt-4.1-mini -n 20 -r 3 -s. Sprawdź, czy istnieje różnorodność nagród na poziomie bazowym. 3. Wybierz ścieżkę treningu: dla większości użytkowników zacznij od Hosted Training (prime lab setup), dla zaawansowanych użytkowników z dostępem do GPU rozważ prime-rl (prime lab setup --prime-rl). 4. Skonfiguruj aliasy endpointów w pliku configs/endpoints.toml — dla testów zachowania wybierz modele instruct (seria gpt-4.1, qwen3 instruct), dla zadań wymagających głębokich rozumowań wybierz modele reasoning (seria gpt-5, qwen3 thinking). 5. Uruchom trening z konserwatywną długością przebiegu i przeanalizuj próbki na wczesnym etapie, aby zdiagnozować ewentualną niestabilność lub problemy z hiperparametrami. 6. Przed uruchomieniem długich przebiegów treningowych opublikuj środowisko, aby upewnić się, że jest gotowe do produkcji.

Podobne skille