promptfoo-evaluation
Testuj i porównuj odpowiedzi modeli AI za pomocą automatycznych ocen
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do konfiguracji i uruchamiania ewaluacji modeli językowych przy użyciu frameworku Promptfoo. Ułatwia testowanie promptów, tworzenie konfiguracji ewaluacji (promptfooconfig.yaml), pisanie niestandardowych asercji w Pythonie, implementację LLM-as-judge oraz zarządzanie przykładami few-shot. Przydatny gdy pracujesz nad porównaniem modeli, oceną jakości odpowiedzi lub automatycznym testowaniem promptów.
Jak używać
Zainstaluj Promptfoo, uruchamiając polecenie npx promptfoo@latest init w katalogu projektu. Narzędzie utworzy strukturę katalogów i plik promptfooconfig.yaml, który będzie podstawą Twojej konfiguracji.
Przygotuj prompty do testowania. Umieść je w katalogu prompts/ — mogą to być pliki Markdown (system.md) lub JSON (chat.json). W pliku promptfooconfig.yaml wskaż ścieżki do tych promptów w sekcji prompts.
Zdefiniuj modele do porównania w sekcji providers promptfooconfig.yaml. Możesz testować różne wersje Claude'a, GPT-4 lub inne dostępne modele, przypisując każdemu unikalny identyfikator i etykietę.
Przygotuj przypadki testowe w pliku tests/cases.yaml. Każdy przypadek powinien zawierać dane wejściowe i oczekiwane wyniki, które będą podstawą do oceny odpowiedzi modeli.
Dodaj niestandardowe metryki oceny. Napisz asercje w Pythonie (w pliku scripts/metrics.py) lub użyj wbudowanego llm-rubric do automatycznej oceny jakości. Skonfiguruj je w sekcji defaultTest promptfooconfig.yaml, ustawiając progi akceptacji (threshold).
Uruchom ewaluację poleceniem npx promptfoo@latest eval, a następnie wyświetl wyniki w przeglądarce za pomocą npx promptfoo@latest view. Porównaj wydajność modeli i zoptymalizuj prompty na podstawie otrzymanych wyników.