create-eval

Name: create-eval
Author: HolmesGPT

autor: HolmesGPT

Twórz testy ewaluacyjne dla HolmesGPT i waliduj odpowiedzi na pytania o infrastrukturę

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: HolmesGPT
Kategoria: Testowanie

Repozytorium GitHub

O skillu

Skill do tworzenia testów ewaluacyjnych dla projektu HolmesGPT. Umożliwia pisanie i organizowanie testów, które sprawdzają, czy Holmes poprawnie odpowiada na pytania poprzez zapytania do rzeczywistej infrastruktury i usług. Zawiera kompletny przepływ pracy: od wyboru numeru testu, przez definiowanie struktury w pliku test_case.yaml, aż po konfigurację tagów i opcjonalnych manifestów Kubernetesa. Każdy test żyje w osobnym katalogu ze standardową strukturą plików, co ułatwia zarządzanie i skalowanie zestawu testów.

Jak używać

Sprawdź istniejące testy, aby znaleźć następny dostępny numer: uruchom polecenie ls tests/llm/fixtures/test_ask_holmes/ | sort -n | tail -5 w repozytorium HolmesGPT. 2. Utwórz nowy katalog testowy w ścieżce tests/llm/fixtures/test_ask_holmes/ używając konwencji nazewnictwa: NNN_snake_case_description (np. 212_large_configmap_needle), gdzie NNN to trzycyfrowy numer, a namespace dla zasobów to app-NNN. 3. Przeczytaj sekcję [tool.pytest.ini_options] markers w pliku pyproject.toml, aby sprawdzić dostępne tagi — używaj tylko istniejących tagów, ponieważ nieprawidłowe tagi powodują błędy podczas zbierania testów. 4. Stwórz plik test_case.yaml z wymaganymi polami: user_prompt (konkretne pytanie dla Holmes), expected_output (lista kryteriów, które odpowiedź musi spełniać) oraz tags (lista tagów z pyproject.toml). 5. Opcjonalnie dodaj pliki toolsets.yaml (aby włączyć określone zestawy narzędzi), manifest.yaml (manifesty Kubernetesa) lub skrypty generate_*.py (do generowania danych testowych). 6. Upewnij się, że wszystkie nazwy podów i zasobów są unikalne w całym projekcie testów, aby uniknąć konfliktów między testami.

Podobne skille

go-dev-guidelines

autor: jumppad-labs

Wzorce i best practices do pisania kodu Go z podejściem TDD

Testowanie

1190

test-cases

autor: cexll

Generuj kompleksowe przypadki testowe z wymagań produktowych w kilka sekund

Testowanie

2862

creating-financial-models

autor: anthropics

Zaawansowane modele finansowe: DCF, symulacje Monte Carlo i analiza scenariuszy dla inwestorów

Testowanie

25137

langgraph-docs

autor: langchain-ai

Dostęp do dokumentacji LangGraph dla precyzyjnych odpowiedzi i wdrożeń

Testowanie

23127

testing-workflow

autor: amo-tech-ai

Testuj aplikacje warstwowo — od bazy danych przez API do interfejsu i pełnych scenariuszy użytkownika.

Testowanie

1076

pair-trade-screener

autor: tradermonty

Znajdź pary akcji do arbitrażu statystycznego i strategii neutralnych rynkowo

Testowanie

994