evals
Testuj i oceniaj zachowanie agentów AI za pomocą frameworku opartego na best practices Anthropica
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Evals to framework do oceny agentów AI, który pozwala testować i weryfikować ich zachowanie na podstawie transkryptów i wieloturowych rozmów. Narzędzie oferuje trzy typy oceniających: oparte na kodzie, modelu i człowieku. Możesz mierzyć wydajność za pomocą metryk pass@k i pass^k, przeprowadzać testy regresji oraz walidować przepływy pracy agenta przed wdrożeniem. Idealne do benchmarkingu, testowania możliwości i porównywania zmian w zachowaniu agenta.
Jak używać
Sprawdź dostępne dostosowania w katalogu ~/.claude/skills/PAI/USER/SKILLCUSTOMIZATIONS/Evals/. Jeśli katalog istnieje, załaduj plik PREFERENCES.md i wszelkie konfiguracje, które tam się znajdują — będą one zastępować domyślne ustawienia.
Aktywuj skill, używając jednej z poleceń: "uruchom evals", "testuj tego agenta", "oceń", "sprawdź jakość" lub "benchmark". Możesz także użyć "test regresji" lub "test możliwości".
Przygotuj transkrypt lub zapis wieloturowej rozmowy agenta, którą chcesz ocenić. Framework będzie analizować wywołania narzędzi i sekwencję interakcji.
Wybierz typ oceniającego odpowiedni do Twoich potrzeb: oceniający oparty na kodzie (automatyczne reguły), oparty na modelu (ocena przez AI) lub człowieka (ręczna weryfikacja).
Uruchom ocenę i przeanalizuj wyniki. Narzędzie wygeneruje metryki pass@k i pass^k, które pokażą wydajność agenta na poszczególnych zadaniach.
Jeśli znaleźliście problemy, możesz utworzyć nowe zadania oceny na podstawie niepowodzeń i powtórzyć proces walidacji przed wdrożeniem agenta.