llm-evaluation

Name: llm-evaluation
Author: wshobson

autor: wshobson

Oceniaj wydajność aplikacji LLM za pomocą metryk, opinii użytkowników i benchmarków

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: wshobson
Kategoria: Data Science
Wyświetlenia: 65

Repozytorium GitHub

O skillu

Skill do kompleksowej oceny aplikacji opartych na modelach językowych. Zautomatyzuj testowanie wydajności za pomocą metryk takich jak BLEU, ROUGE czy BERTScore dla generowania tekstu, a także Accuracy i F1 dla klasyfikacji. Dodaj ocenę człowieka dla aspektów trudnych do zmierzenia automatycznie — dokładność, spójność, trafność odpowiedzi. Porównuj modele, wykrywaj regresje przed wdrożeniem i buduj zaufanie do systemów produkcyjnych poprzez śledzenie postępów w czasie.

Jak używać

Zainstaluj skill llm-evaluation w swoim środowisku agenta lub Claude'a, dodając go do listy dostępnych umiejętności.
Przygotuj zestaw testowy zawierający przykładowe wejścia, oczekiwane wyjścia oraz rzeczywiste odpowiedzi z Twojej aplikacji LLM, którą chcesz ocenić.
Wybierz metryki automatyczne odpowiednie do Twojego zadania: dla generowania tekstu (tłumaczenie, streszczanie) użyj BLEU, ROUGE lub BERTScore; dla klasyfikacji wybierz Accuracy, Precision, Recall lub F1; dla systemów RAG zastosuj MRR, NDCG lub Precision@K.
Uruchom ocenę automatyczną, aby uzyskać szybkie, powtarzalne wyniki. Skill obliczy wybrane metryki dla całego zestawu testowego i zwróci wyniki w postaci liczbowej.
Jeśli metryki automatyczne nie wystarczają, dodaj ocenę człowieka dla wymiarów takich jak dokładność faktyczna, spójność logiczna, trafność odpowiedzi, płynność języka lub bezpieczeństwo treści. Możesz też użyć mocniejszego modelu LLM jako sędziego do porównywania par odpowiedzi.
Porównaj wyniki między różnymi modelami, wersjami promptów lub konfiguracjami, aby zidentyfikować ulepszenia, wykryć regresje przed wdrożeniem i ustalić linie bazowe do śledzenia postępów w czasie.

Podobne skille

deep-research

autor: davidorex

Automatyczne badanie złożonych problemów w VCV Rack — od szybkiej analizy do głębokich poszukiwań

Data Science

16151

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Data Science

31144

arxiv-search

autor: langchain-ai

Przeszukuj arXiv i znajdź najnowsze prace badawcze z fizyki, matematyki i informatyki

Data Science

76172

last30days

autor: sickn33

Badaj trendy z ostatnich 30 dni na Reddicie, X i sieci — zdobądź wiedzę eksperta i gotowe prompty

Data Science

2148

openrouter

autor: rawveg

Dostęp do 400+ modeli AI przez jeden API z automatycznym routingiem i fallbackami

Data Science

17138

pdf-processing

autor: Ming-Kai-LC

Przetwarzaj duże pliki PDF bez limitów Claude'a – dzielenie, ekstrakcja tekstu i OCR

Data Science

23134