phoenix-evals

Name: phoenix-evals
Author: Arize-ai

autor: Arize-ai

Buduj i uruchamiaj ewaluatory dla aplikacji AI — kod, LLM i walidacja człowieka w jednym miejscu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: Arize-ai
Kategoria: Bezpieczeństwo
Wyświetlenia: 19

Repozytorium GitHub

O skillu

Phoenix Evals to zestaw narzędzi do tworzenia ewaluatorów dla aplikacji opartych na modelach językowych. Możesz budować ewaluatory zarówno na bazie kodu (dla logiki deterministycznej), jak i LLM (dla oceny nuansów). Platforma wspiera walidację dokładności ewaluatorów względem ocen człowieka, analizę błędów, generowanie danych syntetycznych oraz eksperymenty na dużych zbiorach danych. Dostępna dla Pythona i TypeScript.

Jak używać

Zainstaluj Phoenix Evals dla wybranego języka, uruchamiając skrypt setup-python lub setup-typescript dostępny w dokumentacji.
Zdefiniuj, co chcesz ewaluować — przejrzyj sekcję evaluators-overview, aby wybrać metryki i kryteria oceny odpowiednie dla Twojej aplikacji.
Wybierz model, który będzie pełnić rolę sędziego (judge model) — skonsultuj się z wytycznymi w fundamentals-model-selection, aby wybrać odpowiedni LLM.
Zbuduj ewaluator — użyj pre-built evaluators jeśli pasują do Twoich potrzeb, lub stwórz własny ewaluator na bazie kodu (evaluators-code) lub LLM (evaluators-llm) dla bardziej złożonych scenariuszy.
Waliduj dokładność ewaluatora — uruchom validation-evaluators, aby sprawdzić, czy Twój ewaluator zgadza się z ocenami człowieka i działa niezawodnie.
Uruchom eksperymenty na danych — użyj evaluate-dataframe do przetworzenia dużych zbiorów danych lub experiments-running do uruchomienia pełnego eksperymentu z analizą wyników i error-analysis do zidentyfikowania problemów.

Podobne skille

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

zendesk

autor: vm0-ai

Zarządzaj biletami i użytkownikami Zendesk przez API – automatyzuj obsługę klienta

Bezpieczeństwo

11100