agentic-eval

Name: agentic-eval
Author: github

autor: github

Oceniaj i doskonalij wyniki agentów AI poprzez iteracyjne pętle samooceny i refinacji.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: github
Kategoria: Testowanie
Wyświetlenia: 38

Repozytorium GitHub

O skillu

Umiejętność do implementacji wzorców ewaluacji i samopolepszania dla agentów AI. Pozwala budować systemy, w których agent generuje wynik, ocenia go względem zdefiniowanych kryteriów, identyfikuje braki i iteracyjnie ulepsza output. Idealna do zadań wymagających wysokiej jakości — kod, raporty, analizy — gdzie istnieją jasne metryki sukcesu. Wspiera pętle autokrytyki, systemy LLM-as-judge oraz przepływy pracy oparte na testach.

Jak używać

Zainstaluj umiejętność w swoim środowisku agenta, importując moduł agentic-eval z repozytorium GitHub.
Zdefiniuj kryteria oceny dla Twojego zadania — lista konkretnych warunków, które output musi spełnić (np. "kod musi być wolny od błędów składniowych", "raport musi zawierać streszczenie").
Skonfiguruj pętlę refleksji, przekazując zadanie, listę kryteriów i maksymalną liczbę iteracji (zazwyczaj 2-3). Agent najpierw wygeneruje output, następnie go oceni.
W każdej iteracji agent porównuje swój output z kryteriami, otrzymując feedback w formacie PASS/FAIL dla każdego warunku. Jeśli wszystkie kryteria są spełnione, proces kończy się.
Jeśli kryteria nie są spełnione, agent analizuje feedback i automatycznie refaktoryzuje output, uwzględniając wskazane braki.
Powtarzaj kroki 4-5 aż do osiągnięcia pełnej zgodności z kryteriami lub wyczerpania maksymalnej liczby iteracji. Zwróć ostateczny, ulepszony output.

Podobne skille

nextjs-developer

autor: zenobi-us

Ekspert Next.js 14+ budujący szybkie aplikacje full-stack z App Router i optymalizacją SEO

Testowanie

166226

vitest

autor: antfu

Szybkie testy jednostkowe z API kompatybilnym z Jestem, napędzane przez Vite

Testowanie

1236

playwright-cli

autor: microsoft

Automatyzuj interakcje w przeglądarce – testy, formularze, zrzuty ekranu i ekstrakcja danych

Testowanie

45103

polymarket-trader

autor: openclaw

Śledź trendy na rynkach predykcyjnych Polymarket — krypto, polityka, sport i nie tylko.

Testowanie

14142

performing-penetration-testing

autor: jeremylongshore

Zautomatyzuj testy bezpieczeństwa aplikacji webowych i odkryj luki w zabezpieczeniach

Testowanie

1546

creating-financial-models

autor: anthropics

Zaawansowane modele finansowe: DCF, symulacje Monte Carlo i analiza scenariuszy dla inwestorów

Testowanie

25137