hugging-face-evaluation
Dodawaj i zarządzaj wynikami ewaluacji modeli na kartach Hugging Face
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do strukturalnego dodawania wyników ewaluacji do kart modeli na Hugging Face. Pozwala ekstrahować tabele ewaluacji z zawartości README, importować wyniki benchmarków z API Artificial Analysis oraz uruchamiać własne ewaluacje modeli przy użyciu vLLM lub lighteval. Integruje się z formatem metadanych model-index i wspiera publikowanie wyników na leaderboardach.
Jak używać
Zainstaluj skill jako zależność w swoim projekcie Claude/Copilot, upewniając się, że masz Python 3.8+ i narzędzie uv do zarządzania środowiskiem.
Przed utworzeniem pull requesta sprawdź istniejące otwarte PRy w repozytorium, aby uniknąć duplikatów — jest to krok krytyczny przed użyciem flagi --create-pr.
Wybierz metodę dodania wyników ewaluacji: ekstrahuj istniejące tabele z README modelu, zaimportuj wyniki z API Artificial Analysis, lub uruchom własną ewaluację.
Dla ewaluacji niestandardowych z vLLM zainstaluj dodatkowe zależności (torch, transformers, accelerate, lighteval) — będą zainstalowane automatycznie jeśli używasz uv run ze skryptami PEP 723.
Skill zaktualizuje metadane model-index w formacie kompatybilnym z Papers with Code i leaderboardami Hugging Face.
Jeśli uruchamiasz ewaluacje na Hugging Face Jobs, skill obsługuje integrację z uv do zarządzania zależnościami i GPU inference przez vLLM.