trulens-evaluation-setup
Skonfiguruj metryki ewaluacji dla aplikacji LLM — RAG, agenty, i nie tylko
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia zdefiniowanie funkcji zwrotnych i selektorów do oceny jakości aplikacji opartych na modelach językowych. Narzędzie wspiera ewaluację systemów RAG (Context Relevance, Groundedness, Answer Relevance) oraz agentów z metrykami Agent GPA (Logical Consistency, Tool Selection, Execution Efficiency i inne). Zawiera interaktywny przewodnik do wyboru odpowiednich metryk na podstawie typu aplikacji — czy pracujesz z wyszukiwaniem dokumentów, czy z agentami wykonującymi wieloetapowe zadania.
Jak używać
Zainstaluj skill TruLens Evaluation Setup w swoim środowisku pracy. Narzędzie będzie dostępne jako umiejętność do konfiguracji ewaluacji.
Uruchom interaktywny przewodnik wyboru. Odpowiedz na pytanie: jaki typ aplikacji budujesz? Wybierz opcję A dla systemów RAG (aplikacje pobierające dokumenty i generujące odpowiedzi na ich podstawie) lub opcję B dla agentów (aplikacje używające narzędzi do wykonania zadań).
Jeśli wybrałeś agenta, odpowiedz na drugie pytanie: czy Twój agent tworzy plany przed wykonaniem akcji? Na podstawie odpowiedzi otrzymasz listę rekomendowanych metryk — z metrykami planu (Plan Quality, Plan Adherence) lub bez nich.
Rozważ dodatkowe ewaluacje dostępne w tabeli sugestii. Wybierz metryki takie jak Coherence (spójność odpowiedzi) lub Conciseness (zwięzłość) jeśli są istotne dla Twojego przypadku użycia.
Skonfiguruj funkcje zwrotne i selektory zgodnie z wybranym zestawem metryk. Narzędzie umożliwia powiązanie każdej metryki z odpowiednimi komponentami aplikacji (np. pobranymi dokumentami, wygenerowanymi odpowiedziami, wykonanymi akcjami).
Zastosuj konfigurację w swoim systemie ewaluacji TruLens i rozpocznij zbieranie danych o jakości aplikacji LLM.
Podobne skille
last30days
autor: sickn33
a-stock-analysis
autor: openclaw
nano-banana-pro
autor: garg-aayush
notebooklm
autor: leegonzales
claude-automation-recommender
autor: anthropics
prompt-optimizer
autor: solatis