E
evaluation
Testuj agentów AI systematycznie i łap regresje przed wdrożeniem
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do oceny wydajności systemów agentowych. Pomaga budować ramy testowe, mierzyć jakość agenta, tworzyć rubrykami ewaluacji i wdrażać quality gates w pipeline'ach. Obsługuje podejścia wielowymiarowe: ocenę faktyczną, kompletność odpowiedzi, dokładność cytowań i efektywność narzędzi. Łączy ewaluację przez LLM-as-judge z weryfikacją człowieka do wychwycenia przypadków brzegowych.
Jak używać
- Aktywuj skill gdy potrzebujesz testować wydajność agenta, walidować wybory w inżynierii kontekstu lub mierzyć poprawy w czasie. Skill jest przeznaczony dla scenariuszy, gdzie agent podejmuje dynamiczne decyzje i może znaleźć alternatywne ścieżki do celu.
- Zdefiniuj wymiary oceny dla Twojego agenta — typowe to: dokładność faktyczna, kompletność odpowiedzi, jakość źródeł, dokładność cytowań i efektywność użytych narzędzi. Każdy wymiar powinien mieć jasne kryteria.
- Skonfiguruj rubryką ewaluacji, która uwzględnia, że agent może osiągnąć cel różnymi drogami — oceniaj wynik i rozsądność procesu, nie szukaj jednej "słusznej" odpowiedzi.
- Wdrażaj ewaluację przez LLM-as-judge do skalowania testów, ale uzupełniaj ją ręczną weryfikacją dla przypadków brzegowych i walidacji krytycznych decyzji.
- Uruchamiaj ewaluację regularnie przed wdrożeniami, aby wychwycić regresje i porównać różne konfiguracje agenta. Zbieraj metryki w czasie, aby śledzić trend poprawy.
- Używaj wyników do budowania quality gates — ustaw progi akceptacji dla każdego wymiaru i blokuj wdrożenia, które ich nie spełniają.