eval-harness

Name: eval-harness
Author: affaan-m

autor: affaan-m

Framework testowania dla sesji Claude Code – definiuj kryteria sukcesu przed implementacją

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: affaan-m
Kategoria: Data Science
Wyświetlenia: 27

Repozytorium GitHub

O skillu

Eval Harness to formalne narzędzie do testowania agentów AI w podejściu eval-driven development (EDD). Zamiast czekać na wyniki, definiujesz oczekiwane zachowanie PRZED implementacją, a następnie uruchamiasz testy ciągłe podczas pracy. Obsługuje dwa typy ewaluacji: capability evals (sprawdzają nowe możliwości) i regression evals (pilnują, aby zmiany nie zepsuły istniejącego kodu). Grader może być automatyczny (bash, grep) lub oparty na Claude do oceny otwartych wyników. Idealny do mierzenia niezawodności agentów metryką pass@k i śledzenia regresji przy zmianach promptów.

Jak używać

Aktywuj skill eval-harness w sesji Claude Code – narzędzie będzie dostępne do czytania, pisania i edycji plików oraz uruchamiania poleceń bash. 2. Zdefiniuj capability eval przed implementacją: utwórz blok markdown [CAPABILITY EVAL: nazwa-funkcji] z opisem zadania, listą kryteriów sukcesu (checklistą) i oczekiwanym wynikiem. 3. Dla każdego eval'u wybierz typ gradera: code-based (bash, grep, npm test) do sprawdzania deterministycznych warunków, lub model-based (Claude) do oceny wyników otwartych. Wpisz polecenia bash lub prompt ewaluacyjny. 4. Uruchamiaj evals ciągle podczas rozwoju – po każdej zmianie kodu sprawdź, czy capability evals przechodzą i czy regression evals nie spadły poniżej poprzedniego wyniku. 5. Śledź wyniki w formacie X/Y passed – jeśli regresja się pojawi, natychmiast ją napraw zamiast iść dalej. 6. Używaj pass@k metrics do pomiaru niezawodności agenta: jeśli eval przechodzi w 8 na 10 prób, oznacza to pass@10 = 0.8 – im wyższy wskaźnik, tym bardziej niezawodny agent.

Podobne skille

skill-installer

autor: openai

Instaluj umiejętności Codex z oficjalnej listy lub prywatnych repozytoriów GitHub.

Data Science

23118

nano-banana-pro

autor: garg-aayush

Generuj i edytuj obrazy za pomocą API Gemini 3 Pro – od tekstowych opisów do modyfikacji istniejących plików

Data Science

535772

docx

autor: anthropics

Twórz, edytuj i analizuj dokumenty Word z pełną kontrolą zmian i komentarzy

Data Science

39142

skill-creator

autor: anthropics

Twórz umiejętności dla Claude'a – rozszerz jego możliwości o specjalistyczną wiedzę i przepływy pracy

Data Science

59147

threejs

autor: mrgoonie

Twórz interaktywne aplikacje 3D w przeglądarce z Three.js i WebGL

Data Science

1743

arxiv-search

autor: langchain-ai

Przeszukuj arXiv i znajdź najnowsze prace badawcze z fizyki, matematyki i informatyki

Data Science

76172