Toolverse
Wszystkie skille

trulens-running-evaluations

autor: truera

Uruchamiaj ewaluacje LLM i analizuj wyniki w czasie rzeczywistym

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
truera
Kategoria
Data Science
Wyświetlenia
5

O skillu

Skill umożliwia wykonanie skonfigurowanych ewaluacji TruLens dla aplikacji opartych na modelach języka. Po zainstalowaniu możesz owinąć swoją aplikację (LangChain, LangGraph, LlamaIndex lub custom) funkcjami feedback, uruchomić zapytania z rejestracją śladów, a następnie czekać na asynchroniczne wyniki ewaluacji. Narzędzie zwraca wyniki w postaci DataFrame oraz podsumowanie rankingowe dla wszystkich rekordów, co ułatwia analizę jakości odpowiedzi i wydajności agentów.

Jak używać

  1. Upewnij się, że masz zainstalowany TruLens i że Twoja aplikacja jest już zinstrumentowana (zobacz skill instrumentation) oraz że skonfigurowałeś funkcje feedback (zobacz skill evaluation-setup).

  2. Zaimportuj TruSession i wybierz odpowiedni wrapper dla Twojego frameworka: TruChain dla LangChain, TruGraph dla LangGraph, TruLlama lub TruLlamaWorkflow dla LlamaIndex, lub TruApp dla aplikacji custom. Owinąć swoją aplikację, przekazując skonfigurowane feedbacki jako parametr.

  3. Użyj context managera (with tru_app as recording) do uruchomienia aplikacji i rejestracji śladów. Możesz wykonać jedno zapytanie lub pętlę przez listę testowych zapytań — każde zostanie automatycznie śledzane.

  4. Po wykonaniu zapytań czekaj na asynchroniczne wyniki ewaluacji, wywołując retrieve_feedback_results() na obiekcie recording. Możesz ustawić timeout (domyślnie 180 sekund) kontrolujący maksymalny czas oczekiwania.

  5. Wyniki zwrócone zostaną w postaci DataFrame, którą możesz wydrukować lub dalej analizować. Dla pojedynczego rekordu użyj recording[0].retrieve_feedback_results().

  6. Aby uzyskać podsumowanie rankingowe wszystkich rekordów, użyj session.get_leaderboard() — narzędzie wyświetli porównanie wyników ewaluacji dla wszystkich wykonanych zapytań.

Podobne skille