agent-evaluation
Testuj agentów AI w warunkach rzeczywistych, zanim pójdą do produkcji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do testowania i benchmarkowania agentów opartych na modelach językowych. Obejmuje testy behawioralne, ocenę możliwości, metryki niezawodności i monitorowanie produkcyjne. Dowiesz się, że nawet najlepsze agenty osiągają poniżej 50% na rzeczywistych benchmarkach. Naucz się budować ramy ewaluacyjne, które łapią problemy przed wdrożeniem: testy regresji behawioralnej, oceny zdolności i metryki niezawodności.
Jak używać
Zainstaluj umiejętność z repozytorium davila7 (claude-code-templates). Skill wymaga podstawowej wiedzy o testowaniu i fundamentach modeli językowych.
Zdefiniuj testy behawioralne dla swojego agenta — określ niezmienniki behawioralne, które agent powinien spełniać niezależnie od wariacji wejścia. Unikaj testów tylko ścieżki szczęśliwej; dodaj przypadki brzegowe i scenariusze awarii.
Uruchom testy wielokrotnie i analizuj rozkład wyników. Pojedynczy przebieg nie wystarczy — LLM agenty mogą dać różne odpowiedzi na to samo wejście. Zbierz statystyki z wielu uruchomień.
Przeprowadź testy adversarialne — aktywnie próbuj złamać zachowanie agenta. Nie polegaj na dopasowaniu stringów wyjścia; zamiast tego oceniaj semantykę i spełnienie zadania.
Monitoruj metryki niezawodności w produkcji. Zwróć uwagę na agenty, które dobrze wypadają na benchmarkach, ale zawodzą w rzeczywistych scenariuszach — to wskazuje na niedopasowanie między ewaluacją a rzeczywistym użyciem.
Unikaj przeciekania danych testowych do treningu lub promptów agenta. Oddziel dane ewaluacyjne od danych treningowych, aby uniknąć fałszywych pozytywnych wyników.
Podobne skille
creating-financial-models
autor: anthropics
crypto-research
autor: stevengonsalvez
polymarket-trader
autor: openclaw
performing-penetration-testing
autor: jeremylongshore
code-review-excellence
autor: wshobson
playwright-cli
autor: microsoft