Toolverse
Wszystkie skille

promptfoo-evaluation

autor: daymade

Testuj i porównuj odpowiedzi modeli AI za pomocą automatycznych ocen

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
daymade
Kategoria
Testowanie
Wyświetlenia
2

O skillu

Skill do konfiguracji i uruchamiania ewaluacji modeli językowych przy użyciu frameworku Promptfoo. Ułatwia testowanie promptów, tworzenie konfiguracji ewaluacji (promptfooconfig.yaml), pisanie niestandardowych asercji w Pythonie, implementację LLM-as-judge oraz zarządzanie przykładami few-shot. Przydatny gdy pracujesz nad porównaniem modeli, oceną jakości odpowiedzi lub automatycznym testowaniem promptów.

Jak używać

  1. Zainstaluj Promptfoo, uruchamiając polecenie npx promptfoo@latest init w katalogu projektu. Narzędzie utworzy strukturę katalogów i plik promptfooconfig.yaml, który będzie podstawą Twojej konfiguracji.

  2. Przygotuj prompty do testowania. Umieść je w katalogu prompts/ — mogą to być pliki Markdown (system.md) lub JSON (chat.json). W pliku promptfooconfig.yaml wskaż ścieżki do tych promptów w sekcji prompts.

  3. Zdefiniuj modele do porównania w sekcji providers promptfooconfig.yaml. Możesz testować różne wersje Claude'a, GPT-4 lub inne dostępne modele, przypisując każdemu unikalny identyfikator i etykietę.

  4. Przygotuj przypadki testowe w pliku tests/cases.yaml. Każdy przypadek powinien zawierać dane wejściowe i oczekiwane wyniki, które będą podstawą do oceny odpowiedzi modeli.

  5. Dodaj niestandardowe metryki oceny. Napisz asercje w Pythonie (w pliku scripts/metrics.py) lub użyj wbudowanego llm-rubric do automatycznej oceny jakości. Skonfiguruj je w sekcji defaultTest promptfooconfig.yaml, ustawiając progi akceptacji (threshold).

  6. Uruchom ewaluację poleceniem npx promptfoo@latest eval, a następnie wyświetl wyniki w przeglądarce za pomocą npx promptfoo@latest view. Porównaj wydajność modeli i zoptymalizuj prompty na podstawie otrzymanych wyników.

Podobne skille