nemo-evaluator-sdk
Ewaluuj modele językowe na 100+ benchmarkach z obsługą Docker, Slurm i chmury
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Nemo Evaluator SDK to narzędzie do testowania dużych modeli językowych na ponad 100 benchmarkach z 18+ harnesów (MMLU, HumanEval, GSM8K, testy bezpieczeństwa, VLM). Uruchamiaj ewaluacje na lokalnym Docker, klastrach HPC Slurm lub platformach chmurowych. Platforma klasy enterprise od NVIDIA z architekturą opartą na kontenerach gwarantuje powtarzalne i skalowalne wyniki benchmarkingu. Idealna dla badaczy i inżynierów optymalizujących wydajność modeli.
Jak używać
Zainstaluj narzędzie za pomocą pip: uruchom polecenie
pip install nemo-evaluator-launcherw swoim środowisku Python.Skonfiguruj klucz API NVIDIA, ustawiając zmienną środowiskową
NGC_API_KEYna swoją wartość (np.export NGC_API_KEY=nvapi-your-key-here).Utwórz plik konfiguracyjny
config.yamlzawierający endpoint API modelu, który chcesz testować (np. Llama 3.1 8B), oraz listę benchmarków do uruchomienia (takie jak ifeval, MMLU, GSM8K). Określ katalog wyjściowy dla wyników.Uruchom ewaluację poleceniem
nemo-evaluator-launcher run --config-dir . --config-name config. Narzędzie automatycznie pobierze benchmarki i uruchomi testy na skonfigurowanym modelu.Sprawdź dostępne benchmarki i harnessy za pomocą
nemo-evaluator-launcher ls tasks, aby wybrać te, które pasują do Twoich potrzeb.Po zakończeniu ewaluacji przejrzyj wyniki w katalogu
./results— zawierają szczegółowe metryki wydajności modelu na każdym benchmarku.