trulens-evaluation-setup

Name: trulens-evaluation-setup
Author: truera

autor: truera

Skonfiguruj metryki ewaluacji dla aplikacji LLM — RAG, agenty, i nie tylko

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: truera
Kategoria: Data Science
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Umożliwia zdefiniowanie funkcji zwrotnych i selektorów do oceny jakości aplikacji opartych na modelach językowych. Narzędzie wspiera ewaluację systemów RAG (Context Relevance, Groundedness, Answer Relevance) oraz agentów z metrykami Agent GPA (Logical Consistency, Tool Selection, Execution Efficiency i inne). Zawiera interaktywny przewodnik do wyboru odpowiednich metryk na podstawie typu aplikacji — czy pracujesz z wyszukiwaniem dokumentów, czy z agentami wykonującymi wieloetapowe zadania.

Jak używać

Zainstaluj skill TruLens Evaluation Setup w swoim środowisku pracy. Narzędzie będzie dostępne jako umiejętność do konfiguracji ewaluacji.
Uruchom interaktywny przewodnik wyboru. Odpowiedz na pytanie: jaki typ aplikacji budujesz? Wybierz opcję A dla systemów RAG (aplikacje pobierające dokumenty i generujące odpowiedzi na ich podstawie) lub opcję B dla agentów (aplikacje używające narzędzi do wykonania zadań).
Jeśli wybrałeś agenta, odpowiedz na drugie pytanie: czy Twój agent tworzy plany przed wykonaniem akcji? Na podstawie odpowiedzi otrzymasz listę rekomendowanych metryk — z metrykami planu (Plan Quality, Plan Adherence) lub bez nich.
Rozważ dodatkowe ewaluacje dostępne w tabeli sugestii. Wybierz metryki takie jak Coherence (spójność odpowiedzi) lub Conciseness (zwięzłość) jeśli są istotne dla Twojego przypadku użycia.
Skonfiguruj funkcje zwrotne i selektory zgodnie z wybranym zestawem metryk. Narzędzie umożliwia powiązanie każdej metryki z odpowiednimi komponentami aplikacji (np. pobranymi dokumentami, wygenerowanymi odpowiedziami, wykonanymi akcjami).
Zastosuj konfigurację w swoim systemie ewaluacji TruLens i rozpocznij zbieranie danych o jakości aplikacji LLM.

Podobne skille

last30days

autor: sickn33

Badaj trendy z ostatnich 30 dni na Reddicie, X i sieci — zdobądź wiedzę eksperta i gotowe prompty

Data Science

2148

a-stock-analysis

autor: openclaw

Analizuj notowania giełdowe w czasie rzeczywistym i śledź ruchy głównych graczy na rynku.

Data Science

48153

nano-banana-pro

autor: garg-aayush

Generuj i edytuj obrazy za pomocą API Gemini 3 Pro – od tekstowych opisów do modyfikacji istniejących plików

Data Science

535772

notebooklm

autor: leegonzales

Zadawaj pytania swoim dokumentom w NotebookLM i otrzymuj odpowiedzi z cytowaniem źródeł, bez halucynacji.

Data Science

142112

claude-automation-recommender

autor: anthropics

Analizuj kod i odkryj, jakie automatyzacje Claude Code będą dla Ciebie najlepsze

Data Science

1787

prompt-optimizer

autor: solatis

Doskonał prompty dla agentów Claude – wzorce oparte na badaniach naukowych

Data Science

15109