trulens-running-evaluations
Uruchamiaj ewaluacje LLM i analizuj wyniki w czasie rzeczywistym
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill umożliwia wykonanie skonfigurowanych ewaluacji TruLens dla aplikacji opartych na modelach języka. Po zainstalowaniu możesz owinąć swoją aplikację (LangChain, LangGraph, LlamaIndex lub custom) funkcjami feedback, uruchomić zapytania z rejestracją śladów, a następnie czekać na asynchroniczne wyniki ewaluacji. Narzędzie zwraca wyniki w postaci DataFrame oraz podsumowanie rankingowe dla wszystkich rekordów, co ułatwia analizę jakości odpowiedzi i wydajności agentów.
Jak używać
Upewnij się, że masz zainstalowany TruLens i że Twoja aplikacja jest już zinstrumentowana (zobacz skill instrumentation) oraz że skonfigurowałeś funkcje feedback (zobacz skill evaluation-setup).
Zaimportuj TruSession i wybierz odpowiedni wrapper dla Twojego frameworka: TruChain dla LangChain, TruGraph dla LangGraph, TruLlama lub TruLlamaWorkflow dla LlamaIndex, lub TruApp dla aplikacji custom. Owinąć swoją aplikację, przekazując skonfigurowane feedbacki jako parametr.
Użyj context managera (with tru_app as recording) do uruchomienia aplikacji i rejestracji śladów. Możesz wykonać jedno zapytanie lub pętlę przez listę testowych zapytań — każde zostanie automatycznie śledzane.
Po wykonaniu zapytań czekaj na asynchroniczne wyniki ewaluacji, wywołując retrieve_feedback_results() na obiekcie recording. Możesz ustawić timeout (domyślnie 180 sekund) kontrolujący maksymalny czas oczekiwania.
Wyniki zwrócone zostaną w postaci DataFrame, którą możesz wydrukować lub dalej analizować. Dla pojedynczego rekordu użyj recording[0].retrieve_feedback_results().
Aby uzyskać podsumowanie rankingowe wszystkich rekordów, użyj session.get_leaderboard() — narzędzie wyświetli porównanie wyników ewaluacji dla wszystkich wykonanych zapytań.