evaluation

Name: evaluation
Author: muratcankoylan

autor: muratcankoylan

Testuj agentów AI systematycznie i łap regresje przed wdrożeniem

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: muratcankoylan
Kategoria: Testowanie
Wyświetlenia: 27

Repozytorium GitHub

O skillu

Skill do oceny wydajności systemów agentowych. Pomaga budować ramy testowe, mierzyć jakość agenta, tworzyć rubrykami ewaluacji i wdrażać quality gates w pipeline'ach. Obsługuje podejścia wielowymiarowe: ocenę faktyczną, kompletność odpowiedzi, dokładność cytowań i efektywność narzędzi. Łączy ewaluację przez LLM-as-judge z weryfikacją człowieka do wychwycenia przypadków brzegowych.

Jak używać

Aktywuj skill gdy potrzebujesz testować wydajność agenta, walidować wybory w inżynierii kontekstu lub mierzyć poprawy w czasie. Skill jest przeznaczony dla scenariuszy, gdzie agent podejmuje dynamiczne decyzje i może znaleźć alternatywne ścieżki do celu.
Zdefiniuj wymiary oceny dla Twojego agenta — typowe to: dokładność faktyczna, kompletność odpowiedzi, jakość źródeł, dokładność cytowań i efektywność użytych narzędzi. Każdy wymiar powinien mieć jasne kryteria.
Skonfiguruj rubryką ewaluacji, która uwzględnia, że agent może osiągnąć cel różnymi drogami — oceniaj wynik i rozsądność procesu, nie szukaj jednej "słusznej" odpowiedzi.
Wdrażaj ewaluację przez LLM-as-judge do skalowania testów, ale uzupełniaj ją ręczną weryfikacją dla przypadków brzegowych i walidacji krytycznych decyzji.
Uruchamiaj ewaluację regularnie przed wdrożeniami, aby wychwycić regresje i porównać różne konfiguracje agenta. Zbieraj metryki w czasie, aby śledzić trend poprawy.
Używaj wyników do budowania quality gates — ustaw progi akceptacji dla każdego wymiaru i blokuj wdrożenia, które ich nie spełniają.

Podobne skille

polymarket-trader

autor: openclaw

Śledź trendy na rynkach predykcyjnych Polymarket — krypto, polityka, sport i nie tylko.

Testowanie

14142

playwright-browser-automation

autor: lackeyjb

Automatyzuj testy stron i interakcje przeglądarki za pomocą Playwright

Testowanie

13130

langgraph-docs

autor: langchain-ai

Dostęp do dokumentacji LangGraph dla precyzyjnych odpowiedzi i wdrożeń

Testowanie

23127

testing-workflow

autor: amo-tech-ai

Testuj aplikacje warstwowo — od bazy danych przez API do interfejsu i pełnych scenariuszy użytkownika.

Testowanie

1076

textual

autor: KyleKing

Buduj interfejsy terminalowe w Pythonie z pomocą eksperta Textual

Testowanie

69192

pair-trade-screener

autor: tradermonty

Znajdź pary akcji do arbitrażu statystycznego i strategii neutralnych rynkowo

Testowanie

994