train-with-environments

Name: train-with-environments
Author: PrimeIntellect-ai

autor: PrimeIntellect-ai

Trenuj modele z weryfikacją środowisk przy użyciu RL — konfiguruj hiperparametry i diagnozuj niestabilność

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: PrimeIntellect-ai
Kategoria: Backend
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Skill do trenowania modeli w środowiskach weryfikacyjnych z wykorzystaniem Hosted Training lub prime-rl. Pomaga w konfigurowaniu przebiegów RL, dostrajaniu kluczowych hiperparametrów, diagnozowaniu problemów ze stabilnością, ustawianiu filtrowania trudności i oversamplingu, a także tworzeniu praktycznych pętli treningowych i ewaluacyjnych dla nowych środowisk. Idealne dla użytkowników chcących uruchomić stabilne trenowanie ze świadomością specyfiki środowiska.

Jak używać

Zainstaluj środowisko, które chcesz trenować, używając polecenia prime env install [nazwa-środowiska]. 2. Przed rozpoczęciem długiego treningu uruchom ewaluację kanoniczną, aby zweryfikować zachowanie środowiska: prime eval run [nazwa-środowiska] -m gpt-4.1-mini -n 20 -r 3 -s. Sprawdź, czy istnieje różnorodność nagród na poziomie bazowym. 3. Wybierz ścieżkę treningu: dla większości użytkowników zacznij od Hosted Training (prime lab setup), dla zaawansowanych użytkowników z dostępem do GPU rozważ prime-rl (prime lab setup --prime-rl). 4. Skonfiguruj aliasy endpointów w pliku configs/endpoints.toml — dla testów zachowania wybierz modele instruct (seria gpt-4.1, qwen3 instruct), dla zadań wymagających głębokich rozumowań wybierz modele reasoning (seria gpt-5, qwen3 thinking). 5. Uruchom trening z konserwatywną długością przebiegu i przeanalizuj próbki na wczesnym etapie, aby zdiagnozować ewentualną niestabilność lub problemy z hiperparametrami. 6. Przed uruchomieniem długich przebiegów treningowych opublikuj środowisko, aby upewnić się, że jest gotowe do produkcji.

Podobne skille

youtube-transcript

autor: michalparkola

Pobierz transkrypcje z filmów YouTube za pomocą Claude – automatycznie wyodrębnia napisy i transkrypcje.

Backend

53214

supabase-operations

autor: elevanaltd

Waliduj migracje bazy danych i optymalizuj polityki bezpieczeństwa w Supabase

Backend

27109

clickup

autor: civitai

Zarządzaj zadaniami i dokumentami ClickUp bezpośrednio z Claude'a

Backend

2483

drizzle

autor: lobehub

Przewodnik schematów Drizzle ORM – definiuj tabele, migracje i modele baz danych

Backend

79340

literature-review

autor: K-Dense-AI

Systematyczne przeglądy literatury naukowej z weryfikacją cytacji i formatowaniem PDF

Backend

238507

stripe-integration

autor: wshobson

Integracja płatności Stripe z pełną obsługą subskrypcji i webhooków

Backend

40147