trulens-evaluation-workflow

Name: trulens-evaluation-workflow
Author: truera

autor: truera

Systematyczna ocena aplikacji LLM z metrykami dostosowanymi do Twojego przypadku użycia

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: truera
Kategoria: Testowanie
Wyświetlenia: 20

Repozytorium GitHub

O skillu

Umiejętność TruLens do kompleksowej ewaluacji aplikacji opartych na modelach językowych. Przeprowadź systematyczną ocenę poprzez instrumentację kodu, dobór odpowiednich metryk (RAG Triad dla RAG, Agent GPA dla agentów, Answer Relevance dla prostych aplikacji) i konfigurację feedbacku. Narzędzie prowadzi Cię przez proces pytań diagnostycznych, aby wybrać właściwe metryki dla Twojej architektury — niezależnie czy używasz LangChain, LangGraph, LlamaIndex czy rozwiązania custom.

Jak używać

Zainstaluj skill TruLens Evaluation Workflow w swoim środowisku agenta Claude/Copilot. 2. Odpowiedz na pytanie diagnostyczne dotyczące typu Twojej aplikacji — wskaż framework, na którym zbudowałeś system (LangChain, LangGraph/Deep Agents, LlamaIndex lub Custom). 3. Wybierz zestaw metryk ewaluacji dostosowany do Twojego przypadku: dla aplikacji RAG użyj RAG Triad (Context Relevance, Groundedness, Answer Relevance), dla agentów wybierz Agent GPA (Tool Selection, Tool Calling, Execution Efficiency), dla prostych aplikacji wystarczy Answer Relevance. 4. Jeśli Twój agent zawiera etap jawnego planowania, włącz dodatkowe metryki Plan Quality i Adherence. 5. Opcjonalnie dodaj metryki uzupełniające takie jak Coherence, Conciseness lub Harmlessness, jeśli chcesz pogłębić ewaluację. 6. Skill przeprowadzi Cię przez workflow instrumentacji kodu, kuracji danych testowych i konfiguracji funkcji feedbacku, aby uruchomić pełny cykl ewaluacji Twojej aplikacji LLM.

Podobne skille

dependency-upgrade

autor: wshobson

Bezpiecznie aktualizuj duże wersje bibliotek z analizą kompatybilności i testowaniem

Testowanie

17138

ppt-creator

autor: daymade

Twórz profesjonalne prezentacje z dowolnego tematu – automatycznie, ze strukturą i wykresami

Testowanie

2739

langgraph-docs

autor: langchain-ai

Dostęp do dokumentacji LangGraph dla precyzyjnych odpowiedzi i wdrożeń

Testowanie

23127

testing-workflow

autor: amo-tech-ai

Testuj aplikacje warstwowo — od bazy danych przez API do interfejsu i pełnych scenariuszy użytkownika.

Testowanie

1076

creating-financial-models

autor: anthropics

Zaawansowane modele finansowe: DCF, symulacje Monte Carlo i analiza scenariuszy dla inwestorów

Testowanie

25137

ad-creative

autor: alirezarezvani

Generuj, iteruj i skaluj teksty reklamowe dla kampanii płatnych — bez strategii, czysta produkcja kreatywna.

Testowanie

2863