langfuse-core-workflow-b
Oceniaj i punktuj wyniki AI za pomocą Langfuse — automatyczna ewaluacja modeli językowych
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do Langfuse umożliwia ocenę i punktowanie wyników generowanych przez modele AI. Zaimplementuj ewaluację LLM za pomocą trzech typów ocen: numerycznych (0-1), kategorycznych (np. doskonały/słaby) i boolowskich (tak/nie). Dodawaj opinie użytkowników, automatycznie punktuj jakość odpowiedzi i zarządzaj eksperymentami z zestawami danych. Idealne do testowania promptów, benchmarkowania modeli i monitorowania jakości w produkcji.
Jak używać
Upewnij się, że masz zainstalowany Langfuse SDK z skonfigurowanymi kluczami API oraz że zbierasz już ślady (traces) za pomocą langfuse-core-workflow-a.
Zainstaluj pakiet @langfuse/client (wersja 4+) w swoim projekcie, jeśli jeszcze go nie masz.
Wyzwól skill frazami takimi jak "langfuse evaluation", "langfuse scoring", "rate llm outputs", "langfuse feedback", "langfuse datasets" lub "langfuse experiments".
Użyj SDK do tworzenia ocen numerycznych — przekaż traceId, nazwę metryki (np. "relevance"), wartość od 0 do 1 oraz typ danych NUMERIC. Dodaj opcjonalny komentarz opisujący ocenę.
Dla ocen kategorycznych (np. klasyfikacja jakości) podaj wartość tekstową (np. "excellent", "poor") i ustaw typ danych na CATEGORICAL. Możesz oceniać konkretne generacje, podając observationId.
Implementuj oceny boolowskie (tak/nie, zatwierdzone/odrzucone) dla szybkiego feedback'u — użyj wartości 1 lub 0 z typem BOOLEAN. Wszystkie oceny są przypisane do śladów i dostępne w dashboardzie Langfuse do analizy trendów i porównywania wersji promptów.
Podobne skille
ui-audit
autor: openclaw
windows-ui-automation
autor: martinholovsky
openapi-spec-generation
autor: wshobson
youtube-watcher
autor: openclaw
qmd
autor: tobi
better-auth-best-practices
autor: novuhq