trulens-running-evaluations

Name: trulens-running-evaluations
Author: truera

autor: truera

Uruchamiaj ewaluacje LLM i analizuj wyniki w czasie rzeczywistym

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: truera
Kategoria: Data Science
Wyświetlenia: 5

Repozytorium GitHub

O skillu

Skill umożliwia wykonanie skonfigurowanych ewaluacji TruLens dla aplikacji opartych na modelach języka. Po zainstalowaniu możesz owinąć swoją aplikację (LangChain, LangGraph, LlamaIndex lub custom) funkcjami feedback, uruchomić zapytania z rejestracją śladów, a następnie czekać na asynchroniczne wyniki ewaluacji. Narzędzie zwraca wyniki w postaci DataFrame oraz podsumowanie rankingowe dla wszystkich rekordów, co ułatwia analizę jakości odpowiedzi i wydajności agentów.

Jak używać

Upewnij się, że masz zainstalowany TruLens i że Twoja aplikacja jest już zinstrumentowana (zobacz skill instrumentation) oraz że skonfigurowałeś funkcje feedback (zobacz skill evaluation-setup).
Zaimportuj TruSession i wybierz odpowiedni wrapper dla Twojego frameworka: TruChain dla LangChain, TruGraph dla LangGraph, TruLlama lub TruLlamaWorkflow dla LlamaIndex, lub TruApp dla aplikacji custom. Owinąć swoją aplikację, przekazując skonfigurowane feedbacki jako parametr.
Użyj context managera (with tru_app as recording) do uruchomienia aplikacji i rejestracji śladów. Możesz wykonać jedno zapytanie lub pętlę przez listę testowych zapytań — każde zostanie automatycznie śledzane.
Po wykonaniu zapytań czekaj na asynchroniczne wyniki ewaluacji, wywołując retrieve_feedback_results() na obiekcie recording. Możesz ustawić timeout (domyślnie 180 sekund) kontrolujący maksymalny czas oczekiwania.
Wyniki zwrócone zostaną w postaci DataFrame, którą możesz wydrukować lub dalej analizować. Dla pojedynczego rekordu użyj recording[0].retrieve_feedback_results().
Aby uzyskać podsumowanie rankingowe wszystkich rekordów, użyj session.get_leaderboard() — narzędzie wyświetli porównanie wyników ewaluacji dla wszystkich wykonanych zapytań.

Podobne skille

nano-banana-pro

autor: garg-aayush

Generuj i edytuj obrazy za pomocą API Gemini 3 Pro – od tekstowych opisów do modyfikacji istniejących plików

Data Science

535772

ml-paper-writing

autor: davila7

Pisz artykuły naukowe gotowe do publikacji w top konferencjach AI z pomocą Claude'a

Data Science

2681

arxiv-search

autor: langchain-ai

Przeszukuj arXiv i znajdź najnowsze prace badawcze z fizyki, matematyki i informatyki

Data Science

76172

prompt-optimizer

autor: solatis

Doskonał prompty dla agentów Claude – wzorce oparte na badaniach naukowych

Data Science

15109

xlsx

autor: anthropics

Twórz, edytuj i analizuj arkusze kalkulacyjne z formułami i wykresami

Data Science

40128

pdf-processing

autor: Ming-Kai-LC

Przetwarzaj duże pliki PDF bez limitów Claude'a – dzielenie, ekstrakcja tekstu i OCR

Data Science

23134