E
eval-harness
Framework testowania dla sesji Claude Code – definiuj kryteria sukcesu przed implementacją
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Eval Harness to formalne narzędzie do testowania agentów AI w podejściu eval-driven development (EDD). Zamiast czekać na wyniki, definiujesz oczekiwane zachowanie PRZED implementacją, a następnie uruchamiasz testy ciągłe podczas pracy. Obsługuje dwa typy ewaluacji: capability evals (sprawdzają nowe możliwości) i regression evals (pilnują, aby zmiany nie zepsuły istniejącego kodu). Grader może być automatyczny (bash, grep) lub oparty na Claude do oceny otwartych wyników. Idealny do mierzenia niezawodności agentów metryką pass@k i śledzenia regresji przy zmianach promptów.
Jak używać
- Aktywuj skill eval-harness w sesji Claude Code – narzędzie będzie dostępne do czytania, pisania i edycji plików oraz uruchamiania poleceń bash. 2. Zdefiniuj capability eval przed implementacją: utwórz blok markdown [CAPABILITY EVAL: nazwa-funkcji] z opisem zadania, listą kryteriów sukcesu (checklistą) i oczekiwanym wynikiem. 3. Dla każdego eval'u wybierz typ gradera: code-based (bash, grep, npm test) do sprawdzania deterministycznych warunków, lub model-based (Claude) do oceny wyników otwartych. Wpisz polecenia bash lub prompt ewaluacyjny. 4. Uruchamiaj evals ciągle podczas rozwoju – po każdej zmianie kodu sprawdź, czy capability evals przechodzą i czy regression evals nie spadły poniżej poprzedniego wyniku. 5. Śledź wyniki w formacie X/Y passed – jeśli regresja się pojawi, natychmiast ją napraw zamiast iść dalej. 6. Używaj pass@k metrics do pomiaru niezawodności agenta: jeśli eval przechodzi w 8 na 10 prób, oznacza to pass@10 = 0.8 – im wyższy wskaźnik, tym bardziej niezawodny agent.