evaluate-environments
Testuj i porównuj modele AI w swoich środowiskach za pomocą zautomatyzowanych ewaluacji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do uruchamiania i analizy ewaluacji środowisk za pomocą prime eval. Pozwala na smoke-testowanie, uruchamianie benchmark'ów, wznowienie przerwanych testów, porównywanie modeli oraz generowanie podsumowań ewaluacji. Wyniki zapisują się automatycznie w prywatnej zakładce Evaluations, dostępne lokalnie w prime eval tui. Idealne do szybkiego sprawdzenia zachowania modelu lub głębokich testów pokrycia.
Jak używać
Zainstaluj skill w swoim środowisku agenta Claude/Copilot, dodając go do konfiguracji MCP server'ów.
Uruchom smoke test na wybranym środowisku, aby szybko sprawdzić jego działanie: prime eval run my-env -m gpt-4.1-mini -n 5. Parametr -n określa liczbę próbek do testowania.
Jeśli testujesz środowisko z Hub'a, użyj ścieżki owner/env-slug zamiast lokalnej nazwy: prime eval run owner/my-env -m gpt-4.1-mini -n 5.
Po pozytywnym smoke teście skaluj ewaluację do większej liczby próbek i powtórzeń: prime eval run owner/my-env -m gpt-4.1-mini -n 200 -r 3 -s. Flaga -r określa liczbę powtórzeń, -s włącza shuffle.
Dla wygody zdefiniuj aliasy endpointów w pliku configs/endpoints.toml, aby uniknąć powtarzania parametrów URL i klucza API. Następnie odwołuj się do nich przez -m endpoint_id zamiast ręcznego wpisywania -b i -k.
Wyniki ewaluacji zapisują się automatycznie w Evaluations tab i lokalnie — możesz je przeglądać, porównywać modele oraz podejmować decyzje o następnych krokach na podstawie wygenerowanych podsumowań.
Podobne skille
nextjs-developer
autor: zenobi-us
performing-penetration-testing
autor: jeremylongshore
pair-trade-screener
autor: tradermonty
lean4-theorem-proving
autor: cameronfreer
test-cases
autor: cexll
langgraph-docs
autor: langchain-ai