Toolverse
Wszystkie skille

trulens-evaluation-workflow

autor: truera

Systematyczna ocena aplikacji LLM z metrykami dostosowanymi do Twojego przypadku użycia

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
truera
Kategoria
Testowanie
Wyświetlenia
20

O skillu

Umiejętność TruLens do kompleksowej ewaluacji aplikacji opartych na modelach językowych. Przeprowadź systematyczną ocenę poprzez instrumentację kodu, dobór odpowiednich metryk (RAG Triad dla RAG, Agent GPA dla agentów, Answer Relevance dla prostych aplikacji) i konfigurację feedbacku. Narzędzie prowadzi Cię przez proces pytań diagnostycznych, aby wybrać właściwe metryki dla Twojej architektury — niezależnie czy używasz LangChain, LangGraph, LlamaIndex czy rozwiązania custom.

Jak używać

  1. Zainstaluj skill TruLens Evaluation Workflow w swoim środowisku agenta Claude/Copilot. 2. Odpowiedz na pytanie diagnostyczne dotyczące typu Twojej aplikacji — wskaż framework, na którym zbudowałeś system (LangChain, LangGraph/Deep Agents, LlamaIndex lub Custom). 3. Wybierz zestaw metryk ewaluacji dostosowany do Twojego przypadku: dla aplikacji RAG użyj RAG Triad (Context Relevance, Groundedness, Answer Relevance), dla agentów wybierz Agent GPA (Tool Selection, Tool Calling, Execution Efficiency), dla prostych aplikacji wystarczy Answer Relevance. 4. Jeśli Twój agent zawiera etap jawnego planowania, włącz dodatkowe metryki Plan Quality i Adherence. 5. Opcjonalnie dodaj metryki uzupełniające takie jak Coherence, Conciseness lub Harmlessness, jeśli chcesz pogłębić ewaluację. 6. Skill przeprowadzi Cię przez workflow instrumentacji kodu, kuracji danych testowych i konfiguracji funkcji feedbacku, aby uruchomić pełny cykl ewaluacji Twojej aplikacji LLM.

Podobne skille