evals

Name: evals
Author: danielmiessler

autor: danielmiessler

Testuj i oceniaj zachowanie agentów AI za pomocą frameworku opartego na best practices Anthropica

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: danielmiessler
Kategoria: Testowanie

Repozytorium GitHub

O skillu

Evals to framework do oceny agentów AI, który pozwala testować i weryfikować ich zachowanie na podstawie transkryptów i wieloturowych rozmów. Narzędzie oferuje trzy typy oceniających: oparte na kodzie, modelu i człowieku. Możesz mierzyć wydajność za pomocą metryk pass@k i pass^k, przeprowadzać testy regresji oraz walidować przepływy pracy agenta przed wdrożeniem. Idealne do benchmarkingu, testowania możliwości i porównywania zmian w zachowaniu agenta.

Jak używać

Sprawdź dostępne dostosowania w katalogu ~/.claude/skills/PAI/USER/SKILLCUSTOMIZATIONS/Evals/. Jeśli katalog istnieje, załaduj plik PREFERENCES.md i wszelkie konfiguracje, które tam się znajdują — będą one zastępować domyślne ustawienia.
Aktywuj skill, używając jednej z poleceń: "uruchom evals", "testuj tego agenta", "oceń", "sprawdź jakość" lub "benchmark". Możesz także użyć "test regresji" lub "test możliwości".
Przygotuj transkrypt lub zapis wieloturowej rozmowy agenta, którą chcesz ocenić. Framework będzie analizować wywołania narzędzi i sekwencję interakcji.
Wybierz typ oceniającego odpowiedni do Twoich potrzeb: oceniający oparty na kodzie (automatyczne reguły), oparty na modelu (ocena przez AI) lub człowieka (ręczna weryfikacja).
Uruchom ocenę i przeanalizuj wyniki. Narzędzie wygeneruje metryki pass@k i pass^k, które pokażą wydajność agenta na poszczególnych zadaniach.
Jeśli znaleźliście problemy, możesz utworzyć nowe zadania oceny na podstawie niepowodzeń i powtórzyć proces walidacji przed wdrożeniem agenta.

Podobne skille

vitest

autor: antfu

Szybkie testy jednostkowe z API kompatybilnym z Jestem, napędzane przez Vite

Testowanie

1236

qa-tester

autor: svilupp

Automatyczne testowanie aplikacji webowych – wykrywaj błędy funkcjonalne, bezpieczeństwa i UX

Testowanie

2399

hono

autor: openstatusHQ

Rozwijaj aplikacje Hono szybciej dzięki CLI z wyszukiwaniem dokumentacji i testowaniem żądań

Testowanie

1257

lean4-theorem-proving

autor: cameronfreer

Asystent do dowodzenia twierdzeń w Lean 4 – błędy typów, mathlib i axiomy pod kontrolą

Testowanie

9108

webapp-testing

autor: anthropics

Testuj aplikacje webowe lokalnie za pomocą Playwright — weryfikuj interfejs, debuguj zachowanie, przechwytuj zrzuty ekranu.

Testowanie

130255

langchain

autor: zechenzhangAGI

Framework do budowania aplikacji AI z agentami, łańcuchami i wyszukiwaniem dokumentów

Testowanie

21123