Toolverse
Wszystkie skille

evaluate-environments

autor: PrimeIntellect-ai

Testuj i porównuj modele AI w swoich środowiskach za pomocą zautomatyzowanych ewaluacji

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Testowanie
Wyświetlenia
1

O skillu

Skill do uruchamiania i analizy ewaluacji środowisk za pomocą prime eval. Pozwala na smoke-testowanie, uruchamianie benchmark'ów, wznowienie przerwanych testów, porównywanie modeli oraz generowanie podsumowań ewaluacji. Wyniki zapisują się automatycznie w prywatnej zakładce Evaluations, dostępne lokalnie w prime eval tui. Idealne do szybkiego sprawdzenia zachowania modelu lub głębokich testów pokrycia.

Jak używać

  1. Zainstaluj skill w swoim środowisku agenta Claude/Copilot, dodając go do konfiguracji MCP server'ów.

  2. Uruchom smoke test na wybranym środowisku, aby szybko sprawdzić jego działanie: prime eval run my-env -m gpt-4.1-mini -n 5. Parametr -n określa liczbę próbek do testowania.

  3. Jeśli testujesz środowisko z Hub'a, użyj ścieżki owner/env-slug zamiast lokalnej nazwy: prime eval run owner/my-env -m gpt-4.1-mini -n 5.

  4. Po pozytywnym smoke teście skaluj ewaluację do większej liczby próbek i powtórzeń: prime eval run owner/my-env -m gpt-4.1-mini -n 200 -r 3 -s. Flaga -r określa liczbę powtórzeń, -s włącza shuffle.

  5. Dla wygody zdefiniuj aliasy endpointów w pliku configs/endpoints.toml, aby uniknąć powtarzania parametrów URL i klucza API. Następnie odwołuj się do nich przez -m endpoint_id zamiast ręcznego wpisywania -b i -k.

  6. Wyniki ewaluacji zapisują się automatycznie w Evaluations tab i lokalnie — możesz je przeglądać, porównywać modele oraz podejmować decyzje o następnych krokach na podstawie wygenerowanych podsumowań.

Podobne skille