Toolverse
Wszystkie skille

phoenix-evals

autor: Arize-ai

Buduj i uruchamiaj ewaluatory dla aplikacji AI — kod, LLM i walidacja człowieka w jednym miejscu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
19

O skillu

Phoenix Evals to zestaw narzędzi do tworzenia ewaluatorów dla aplikacji opartych na modelach językowych. Możesz budować ewaluatory zarówno na bazie kodu (dla logiki deterministycznej), jak i LLM (dla oceny nuansów). Platforma wspiera walidację dokładności ewaluatorów względem ocen człowieka, analizę błędów, generowanie danych syntetycznych oraz eksperymenty na dużych zbiorach danych. Dostępna dla Pythona i TypeScript.

Jak używać

  1. Zainstaluj Phoenix Evals dla wybranego języka, uruchamiając skrypt setup-python lub setup-typescript dostępny w dokumentacji.

  2. Zdefiniuj, co chcesz ewaluować — przejrzyj sekcję evaluators-overview, aby wybrać metryki i kryteria oceny odpowiednie dla Twojej aplikacji.

  3. Wybierz model, który będzie pełnić rolę sędziego (judge model) — skonsultuj się z wytycznymi w fundamentals-model-selection, aby wybrać odpowiedni LLM.

  4. Zbuduj ewaluator — użyj pre-built evaluators jeśli pasują do Twoich potrzeb, lub stwórz własny ewaluator na bazie kodu (evaluators-code) lub LLM (evaluators-llm) dla bardziej złożonych scenariuszy.

  5. Waliduj dokładność ewaluatora — uruchom validation-evaluators, aby sprawdzić, czy Twój ewaluator zgadza się z ocenami człowieka i działa niezawodnie.

  6. Uruchom eksperymenty na danych — użyj evaluate-dataframe do przetworzenia dużych zbiorów danych lub experiments-running do uruchomienia pełnego eksperymentu z analizą wyników i error-analysis do zidentyfikowania problemów.

Podobne skille