agentic-eval
Oceniaj i doskonalij wyniki agentów AI poprzez iteracyjne pętle samooceny i refinacji.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do implementacji wzorców ewaluacji i samopolepszania dla agentów AI. Pozwala budować systemy, w których agent generuje wynik, ocenia go względem zdefiniowanych kryteriów, identyfikuje braki i iteracyjnie ulepsza output. Idealna do zadań wymagających wysokiej jakości — kod, raporty, analizy — gdzie istnieją jasne metryki sukcesu. Wspiera pętle autokrytyki, systemy LLM-as-judge oraz przepływy pracy oparte na testach.
Jak używać
Zainstaluj umiejętność w swoim środowisku agenta, importując moduł agentic-eval z repozytorium GitHub.
Zdefiniuj kryteria oceny dla Twojego zadania — lista konkretnych warunków, które output musi spełnić (np. "kod musi być wolny od błędów składniowych", "raport musi zawierać streszczenie").
Skonfiguruj pętlę refleksji, przekazując zadanie, listę kryteriów i maksymalną liczbę iteracji (zazwyczaj 2-3). Agent najpierw wygeneruje output, następnie go oceni.
W każdej iteracji agent porównuje swój output z kryteriami, otrzymując feedback w formacie PASS/FAIL dla każdego warunku. Jeśli wszystkie kryteria są spełnione, proces kończy się.
Jeśli kryteria nie są spełnione, agent analizuje feedback i automatycznie refaktoryzuje output, uwzględniając wskazane braki.
Powtarzaj kroki 4-5 aż do osiągnięcia pełnej zgodności z kryteriami lub wyczerpania maksymalnej liczby iteracji. Zwróć ostateczny, ulepszony output.
Podobne skille
nextjs-developer
autor: zenobi-us
vitest
autor: antfu
playwright-cli
autor: microsoft
polymarket-trader
autor: openclaw
performing-penetration-testing
autor: jeremylongshore
creating-financial-models
autor: anthropics