create-environments
Buduj środowiska ewaluacyjne dla ekosystemu Prime Lab – od zera do produkcji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do tworzenia i migracji środowisk weryfikacyjnych w Prime Lab. Pozwala budować nowe środowiska od podstaw, przenosić benchmarki z artykułów naukowych, startować z istniejących środowisk z Hub lub konwertować zadania w pakiety gotowe do instalacji. Każde środowisko pracuje natychmiast: instaluje się, ładuje, ewaluuje i trenuje bez ukrytych zależności. Obsługuje zarówno proste zadania jednokrokowe, jak i złożone interakcje wieloturowe z narzędziami.
Jak używać
Zacznij od inicjalizacji nowego środowiska komendą prime env init my-env, a następnie zainstaluj je za pomocą prime env install my-env. Jeśli chcesz startować z istniejącego środowiska, wyszukaj je komendą prime env list --search "słowo kluczowe" i zainstaluj wybraną opcję.
Przed budowaniem środowiska od zera zdefiniuj kontrakt zadania: kształt promptu, dostępne narzędzia, warunki zatrzymania, format wyników rubryk i metryki ewaluacji. Wybierz odpowiednią klasę bazową – SingleTurnEnv dla zadań jednokrokowych, MultiTurnEnv dla pętli interakcji, ToolEnv lub MCPEnv dla narzędzi bezstanowych, StatefulToolEnv dla zasobów per-rollout.
Uruchom ewaluację komendą prime eval run my-env -m gpt-4.1-mini -n 5. Ta komenda jest kanonicznym sposobem ewaluacji i automatycznie zapisuje wyniki – nie dodawaj --skip-upload chyba że użytkownik wyraźnie tego zażąda.
Przed testowaniem wybierz typ modelu: dla smoke testów preferuj modele instruct (seria gpt-4.1, qwen3 instruct), dla walidacji z rozumowaniem użyj gpt-5, qwen3 thinking lub glm.
Przechowuj aliasy endpointów w pliku configs/endpoints.toml, aby smoke testy mogły szybko przełączać się między modelami bez ręcznych zmian konfiguracji.