nemo-evaluator-sdk

Name: nemo-evaluator-sdk
Author: davila7

autor: davila7

Ewaluuj modele językowe na 100+ benchmarkach z obsługą Docker, Slurm i chmury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

Nemo Evaluator SDK to narzędzie do testowania dużych modeli językowych na ponad 100 benchmarkach z 18+ harnesów (MMLU, HumanEval, GSM8K, testy bezpieczeństwa, VLM). Uruchamiaj ewaluacje na lokalnym Docker, klastrach HPC Slurm lub platformach chmurowych. Platforma klasy enterprise od NVIDIA z architekturą opartą na kontenerach gwarantuje powtarzalne i skalowalne wyniki benchmarkingu. Idealna dla badaczy i inżynierów optymalizujących wydajność modeli.

Jak używać

Zainstaluj narzędzie za pomocą pip: uruchom polecenie pip install nemo-evaluator-launcher w swoim środowisku Python.
Skonfiguruj klucz API NVIDIA, ustawiając zmienną środowiskową NGC_API_KEY na swoją wartość (np. export NGC_API_KEY=nvapi-your-key-here).
Utwórz plik konfiguracyjny config.yaml zawierający endpoint API modelu, który chcesz testować (np. Llama 3.1 8B), oraz listę benchmarków do uruchomienia (takie jak ifeval, MMLU, GSM8K). Określ katalog wyjściowy dla wyników.
Uruchom ewaluację poleceniem nemo-evaluator-launcher run --config-dir . --config-name config. Narzędzie automatycznie pobierze benchmarki i uruchomi testy na skonfigurowanym modelu.
Sprawdź dostępne benchmarki i harnessy za pomocą nemo-evaluator-launcher ls tasks, aby wybrać te, które pasują do Twoich potrzeb.
Po zakończeniu ewaluacji przejrzyj wyniki w katalogu ./results — zawierają szczegółowe metryki wydajności modelu na każdym benchmarku.

Podobne skille

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

1password

autor: openclaw

Zarządzaj hasłami i sekretami przez CLI 1Password bezpośrednio z agentów AI

Bezpieczeństwo

1174

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574