evaluating-llms-harness

Name: evaluating-llms-harness
Author: davila7

autor: davila7

Testuj modele AI na 60+ akademickich benchmarkach — standard branży do oceny jakości LLM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 27

Repozytorium GitHub

O skillu

Narzędzie do ewaluacji dużych modeli językowych na ponad 60 standardowych benchmarkach akademickich, takich jak MMLU, HumanEval, GSM8K, TruthfulQA i HellaSwag. Używaj go do porównywania modeli, raportowania wyników badań, śledzenia postępu treningu i oceny jakości. Wspierany przez EleutherAI, HuggingFace i czołowe laboratoria badawcze. Kompatybilny z modelami z HuggingFace, vLLM i interfejsami API.

Jak używać

Zainstaluj narzędzie za pomocą pip: pip install lm-eval. 2. Wybierz model do testowania — możesz użyć dowolnego modelu z HuggingFace, na przykład meta-llama/Llama-2-7b-hf. 3. Uruchom ewaluację na wybranych benchmarkach poleceniem lm_eval, podając nazwę modelu, jego parametry oraz listę zadań (na przykład mmlu, gsm8k, hellaswag). Określ również urządzenie (GPU) i rozmiar batcha dla wydajności. 4. Przeglądaj dostępne benchmarki poleceniem lm_eval --tasks list, aby wybrać te, które odpowiadają Twoim potrzebom — benchmarki rozumowania (MMLU, GSM8K, HellaSwag), benchmarki kodowania (HumanEval, MBPP) lub własny zestaw. 5. Czekaj na zakończenie ewaluacji — narzędzie obliczy wyniki dla każdego benchmarku i wyświetli metryki porównawcze. 6. Przeanalizuj wyniki, aby porównać modele, zidentyfikować słabe punkty lub zaraportować postęp treningu w publikacjach naukowych.

Podobne skille

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

skill-writer

autor: pytorch

Twórz umiejętności agenta Claude z przewodnikiem po strukturze i najlepszych praktykach

Bezpieczeństwo

15116

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252