E
evaluating-llms-harness
Testuj modele AI na 60+ akademickich benchmarkach — standard branży do oceny jakości LLM
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Narzędzie do ewaluacji dużych modeli językowych na ponad 60 standardowych benchmarkach akademickich, takich jak MMLU, HumanEval, GSM8K, TruthfulQA i HellaSwag. Używaj go do porównywania modeli, raportowania wyników badań, śledzenia postępu treningu i oceny jakości. Wspierany przez EleutherAI, HuggingFace i czołowe laboratoria badawcze. Kompatybilny z modelami z HuggingFace, vLLM i interfejsami API.
Jak używać
- Zainstaluj narzędzie za pomocą pip: pip install lm-eval. 2. Wybierz model do testowania — możesz użyć dowolnego modelu z HuggingFace, na przykład meta-llama/Llama-2-7b-hf. 3. Uruchom ewaluację na wybranych benchmarkach poleceniem lm_eval, podając nazwę modelu, jego parametry oraz listę zadań (na przykład mmlu, gsm8k, hellaswag). Określ również urządzenie (GPU) i rozmiar batcha dla wydajności. 4. Przeglądaj dostępne benchmarki poleceniem lm_eval --tasks list, aby wybrać te, które odpowiadają Twoim potrzebom — benchmarki rozumowania (MMLU, GSM8K, HellaSwag), benchmarki kodowania (HumanEval, MBPP) lub własny zestaw. 5. Czekaj na zakończenie ewaluacji — narzędzie obliczy wyniki dla każdego benchmarku i wyświetli metryki porównawcze. 6. Przeanalizuj wyniki, aby porównać modele, zidentyfikować słabe punkty lub zaraportować postęp treningu w publikacjach naukowych.