evaluate-environments

Name: evaluate-environments
Author: PrimeIntellect-ai

autor: PrimeIntellect-ai

Testuj i porównuj modele AI w swoich środowiskach za pomocą zautomatyzowanych ewaluacji

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: PrimeIntellect-ai
Kategoria: Testowanie
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Skill do uruchamiania i analizy ewaluacji środowisk za pomocą prime eval. Pozwala na smoke-testowanie, uruchamianie benchmark'ów, wznowienie przerwanych testów, porównywanie modeli oraz generowanie podsumowań ewaluacji. Wyniki zapisują się automatycznie w prywatnej zakładce Evaluations, dostępne lokalnie w prime eval tui. Idealne do szybkiego sprawdzenia zachowania modelu lub głębokich testów pokrycia.

Jak używać

Zainstaluj skill w swoim środowisku agenta Claude/Copilot, dodając go do konfiguracji MCP server'ów.
Uruchom smoke test na wybranym środowisku, aby szybko sprawdzić jego działanie: prime eval run my-env -m gpt-4.1-mini -n 5. Parametr -n określa liczbę próbek do testowania.
Jeśli testujesz środowisko z Hub'a, użyj ścieżki owner/env-slug zamiast lokalnej nazwy: prime eval run owner/my-env -m gpt-4.1-mini -n 5.
Po pozytywnym smoke teście skaluj ewaluację do większej liczby próbek i powtórzeń: prime eval run owner/my-env -m gpt-4.1-mini -n 200 -r 3 -s. Flaga -r określa liczbę powtórzeń, -s włącza shuffle.
Dla wygody zdefiniuj aliasy endpointów w pliku configs/endpoints.toml, aby uniknąć powtarzania parametrów URL i klucza API. Następnie odwołuj się do nich przez -m endpoint_id zamiast ręcznego wpisywania -b i -k.
Wyniki ewaluacji zapisują się automatycznie w Evaluations tab i lokalnie — możesz je przeglądać, porównywać modele oraz podejmować decyzje o następnych krokach na podstawie wygenerowanych podsumowań.

Podobne skille

nextjs-developer

autor: zenobi-us

Ekspert Next.js 14+ budujący szybkie aplikacje full-stack z App Router i optymalizacją SEO

Testowanie

166226

performing-penetration-testing

autor: jeremylongshore

Zautomatyzuj testy bezpieczeństwa aplikacji webowych i odkryj luki w zabezpieczeniach

Testowanie

1546

pair-trade-screener

autor: tradermonty

Znajdź pary akcji do arbitrażu statystycznego i strategii neutralnych rynkowo

Testowanie

994

lean4-theorem-proving

autor: cameronfreer

Asystent do dowodzenia twierdzeń w Lean 4 – błędy typów, mathlib i axiomy pod kontrolą

Testowanie

9108

test-cases

autor: cexll

Generuj kompleksowe przypadki testowe z wymagań produktowych w kilka sekund

Testowanie

2862

langgraph-docs

autor: langchain-ai

Dostęp do dokumentacji LangGraph dla precyzyjnych odpowiedzi i wdrożeń

Testowanie

23127