phoenix-evals
Buduj i uruchamiaj ewaluatory dla aplikacji AI — kod, LLM i walidacja człowieka w jednym miejscu
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Phoenix Evals to zestaw narzędzi do tworzenia ewaluatorów dla aplikacji opartych na modelach językowych. Możesz budować ewaluatory zarówno na bazie kodu (dla logiki deterministycznej), jak i LLM (dla oceny nuansów). Platforma wspiera walidację dokładności ewaluatorów względem ocen człowieka, analizę błędów, generowanie danych syntetycznych oraz eksperymenty na dużych zbiorach danych. Dostępna dla Pythona i TypeScript.
Jak używać
Zainstaluj Phoenix Evals dla wybranego języka, uruchamiając skrypt setup-python lub setup-typescript dostępny w dokumentacji.
Zdefiniuj, co chcesz ewaluować — przejrzyj sekcję evaluators-overview, aby wybrać metryki i kryteria oceny odpowiednie dla Twojej aplikacji.
Wybierz model, który będzie pełnić rolę sędziego (judge model) — skonsultuj się z wytycznymi w fundamentals-model-selection, aby wybrać odpowiedni LLM.
Zbuduj ewaluator — użyj pre-built evaluators jeśli pasują do Twoich potrzeb, lub stwórz własny ewaluator na bazie kodu (evaluators-code) lub LLM (evaluators-llm) dla bardziej złożonych scenariuszy.
Waliduj dokładność ewaluatora — uruchom validation-evaluators, aby sprawdzić, czy Twój ewaluator zgadza się z ocenami człowieka i działa niezawodnie.
Uruchom eksperymenty na danych — użyj evaluate-dataframe do przetworzenia dużych zbiorów danych lub experiments-running do uruchomienia pełnego eksperymentu z analizą wyników i error-analysis do zidentyfikowania problemów.