promptfoo-evaluation

Name: promptfoo-evaluation
Author: daymade

autor: daymade

Testuj i porównuj odpowiedzi modeli AI za pomocą automatycznych ocen

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: daymade
Kategoria: Testowanie
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Skill do konfiguracji i uruchamiania ewaluacji modeli językowych przy użyciu frameworku Promptfoo. Ułatwia testowanie promptów, tworzenie konfiguracji ewaluacji (promptfooconfig.yaml), pisanie niestandardowych asercji w Pythonie, implementację LLM-as-judge oraz zarządzanie przykładami few-shot. Przydatny gdy pracujesz nad porównaniem modeli, oceną jakości odpowiedzi lub automatycznym testowaniem promptów.

Jak używać

Zainstaluj Promptfoo, uruchamiając polecenie npx promptfoo@latest init w katalogu projektu. Narzędzie utworzy strukturę katalogów i plik promptfooconfig.yaml, który będzie podstawą Twojej konfiguracji.
Przygotuj prompty do testowania. Umieść je w katalogu prompts/ — mogą to być pliki Markdown (system.md) lub JSON (chat.json). W pliku promptfooconfig.yaml wskaż ścieżki do tych promptów w sekcji prompts.
Zdefiniuj modele do porównania w sekcji providers promptfooconfig.yaml. Możesz testować różne wersje Claude'a, GPT-4 lub inne dostępne modele, przypisując każdemu unikalny identyfikator i etykietę.
Przygotuj przypadki testowe w pliku tests/cases.yaml. Każdy przypadek powinien zawierać dane wejściowe i oczekiwane wyniki, które będą podstawą do oceny odpowiedzi modeli.
Dodaj niestandardowe metryki oceny. Napisz asercje w Pythonie (w pliku scripts/metrics.py) lub użyj wbudowanego llm-rubric do automatycznej oceny jakości. Skonfiguruj je w sekcji defaultTest promptfooconfig.yaml, ustawiając progi akceptacji (threshold).
Uruchom ewaluację poleceniem npx promptfoo@latest eval, a następnie wyświetl wyniki w przeglądarce za pomocą npx promptfoo@latest view. Porównaj wydajność modeli i zoptymalizuj prompty na podstawie otrzymanych wyników.

Podobne skille

polymarket-trader

autor: openclaw

Śledź trendy na rynkach predykcyjnych Polymarket — krypto, polityka, sport i nie tylko.

Testowanie

14142

test-cases

autor: cexll

Generuj kompleksowe przypadki testowe z wymagań produktowych w kilka sekund

Testowanie

2862

code-review-excellence

autor: wshobson

Konstruktywne recenzje kodu, które łapią błędy i budują wiedzę zespołu

Testowanie

1145

ad-creative

autor: alirezarezvani

Generuj, iteruj i skaluj teksty reklamowe dla kampanii płatnych — bez strategii, czysta produkcja kreatywna.

Testowanie

2863

hono

autor: openstatusHQ

Rozwijaj aplikacje Hono szybciej dzięki CLI z wyszukiwaniem dokumentacji i testowaniem żądań

Testowanie

1257

vitest

autor: antfu

Szybkie testy jednostkowe z API kompatybilnym z Jestem, napędzane przez Vite

Testowanie

1236