Toolverse
Wszystkie skille

agentic-eval

autor: github

Oceniaj i doskonalij wyniki agentów AI poprzez iteracyjne pętle samooceny i refinacji.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
github
Kategoria
Testowanie
Wyświetlenia
38

O skillu

Umiejętność do implementacji wzorców ewaluacji i samopolepszania dla agentów AI. Pozwala budować systemy, w których agent generuje wynik, ocenia go względem zdefiniowanych kryteriów, identyfikuje braki i iteracyjnie ulepsza output. Idealna do zadań wymagających wysokiej jakości — kod, raporty, analizy — gdzie istnieją jasne metryki sukcesu. Wspiera pętle autokrytyki, systemy LLM-as-judge oraz przepływy pracy oparte na testach.

Jak używać

  1. Zainstaluj umiejętność w swoim środowisku agenta, importując moduł agentic-eval z repozytorium GitHub.

  2. Zdefiniuj kryteria oceny dla Twojego zadania — lista konkretnych warunków, które output musi spełnić (np. "kod musi być wolny od błędów składniowych", "raport musi zawierać streszczenie").

  3. Skonfiguruj pętlę refleksji, przekazując zadanie, listę kryteriów i maksymalną liczbę iteracji (zazwyczaj 2-3). Agent najpierw wygeneruje output, następnie go oceni.

  4. W każdej iteracji agent porównuje swój output z kryteriami, otrzymując feedback w formacie PASS/FAIL dla każdego warunku. Jeśli wszystkie kryteria są spełnione, proces kończy się.

  5. Jeśli kryteria nie są spełnione, agent analizuje feedback i automatycznie refaktoryzuje output, uwzględniając wskazane braki.

  6. Powtarzaj kroki 4-5 aż do osiągnięcia pełnej zgodności z kryteriami lub wyczerpania maksymalnej liczby iteracji. Zwróć ostateczny, ulepszony output.

Podobne skille