Toolverse
Wszystkie skille

nemo-evaluator-sdk

autor: davila7

Ewaluuj modele językowe na 100+ benchmarkach z obsługą Docker, Slurm i chmury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Nemo Evaluator SDK to narzędzie do testowania dużych modeli językowych na ponad 100 benchmarkach z 18+ harnesów (MMLU, HumanEval, GSM8K, testy bezpieczeństwa, VLM). Uruchamiaj ewaluacje na lokalnym Docker, klastrach HPC Slurm lub platformach chmurowych. Platforma klasy enterprise od NVIDIA z architekturą opartą na kontenerach gwarantuje powtarzalne i skalowalne wyniki benchmarkingu. Idealna dla badaczy i inżynierów optymalizujących wydajność modeli.

Jak używać

  1. Zainstaluj narzędzie za pomocą pip: uruchom polecenie pip install nemo-evaluator-launcher w swoim środowisku Python.

  2. Skonfiguruj klucz API NVIDIA, ustawiając zmienną środowiskową NGC_API_KEY na swoją wartość (np. export NGC_API_KEY=nvapi-your-key-here).

  3. Utwórz plik konfiguracyjny config.yaml zawierający endpoint API modelu, który chcesz testować (np. Llama 3.1 8B), oraz listę benchmarków do uruchomienia (takie jak ifeval, MMLU, GSM8K). Określ katalog wyjściowy dla wyników.

  4. Uruchom ewaluację poleceniem nemo-evaluator-launcher run --config-dir . --config-name config. Narzędzie automatycznie pobierze benchmarki i uruchomi testy na skonfigurowanym modelu.

  5. Sprawdź dostępne benchmarki i harnessy za pomocą nemo-evaluator-launcher ls tasks, aby wybrać te, które pasują do Twoich potrzeb.

  6. Po zakończeniu ewaluacji przejrzyj wyniki w katalogu ./results — zawierają szczegółowe metryki wydajności modelu na każdym benchmarku.

Podobne skille