Toolverse
Wszystkie skille

evaluation

autor: muratcankoylan

Testuj agentów AI systematycznie i łap regresje przed wdrożeniem

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Testowanie
Wyświetlenia
27

O skillu

Skill do oceny wydajności systemów agentowych. Pomaga budować ramy testowe, mierzyć jakość agenta, tworzyć rubrykami ewaluacji i wdrażać quality gates w pipeline'ach. Obsługuje podejścia wielowymiarowe: ocenę faktyczną, kompletność odpowiedzi, dokładność cytowań i efektywność narzędzi. Łączy ewaluację przez LLM-as-judge z weryfikacją człowieka do wychwycenia przypadków brzegowych.

Jak używać

  1. Aktywuj skill gdy potrzebujesz testować wydajność agenta, walidować wybory w inżynierii kontekstu lub mierzyć poprawy w czasie. Skill jest przeznaczony dla scenariuszy, gdzie agent podejmuje dynamiczne decyzje i może znaleźć alternatywne ścieżki do celu.
  2. Zdefiniuj wymiary oceny dla Twojego agenta — typowe to: dokładność faktyczna, kompletność odpowiedzi, jakość źródeł, dokładność cytowań i efektywność użytych narzędzi. Każdy wymiar powinien mieć jasne kryteria.
  3. Skonfiguruj rubryką ewaluacji, która uwzględnia, że agent może osiągnąć cel różnymi drogami — oceniaj wynik i rozsądność procesu, nie szukaj jednej "słusznej" odpowiedzi.
  4. Wdrażaj ewaluację przez LLM-as-judge do skalowania testów, ale uzupełniaj ją ręczną weryfikacją dla przypadków brzegowych i walidacji krytycznych decyzji.
  5. Uruchamiaj ewaluację regularnie przed wdrożeniami, aby wychwycić regresje i porównać różne konfiguracje agenta. Zbieraj metryki w czasie, aby śledzić trend poprawy.
  6. Używaj wyników do budowania quality gates — ustaw progi akceptacji dla każdego wymiaru i blokuj wdrożenia, które ich nie spełniają.

Podobne skille