Toolverse
Wszystkie skille

redteam-plugin-development

autor: promptfoo

Standardy tworzenia wtyczek red team do testowania bezpieczeństwa modeli AI

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
36

O skillu

Skill Claude'a definiujący standardy i best practices dla twórców wtyczek red team oraz graderów oceniających odpowiedzi AI. Zawiera wytyczne dotyczące znormalizowanych tagów, struktury rubryk oceniających i szablonów ataków. Używaj tego przy tworzeniu nowych wtyczek, pisaniu graderów lub modyfikowaniu szablonów testów bezpieczeństwa. Zapewnia spójność i czytelność kodu w całym ekosystemie promptfoo.

Jak używać

  1. Zainstaluj skill redteam-plugin-development w swoim środowisku Claude'a lub Codex'a, pobierając go z repozytorium promptfoo na GitHub.

  2. Przed utworzeniem nowej wtyczki lub gradera zapoznaj się z wymaganiami dotyczącymi znormalizowanych tagów — zawsze używaj <UserQuery>{{prompt}}</UserQuery> dla promptu użytkownika i <purpose>{{purpose}}</purpose> dla celu systemu, nigdy nie stosuj przestarzałych wariantów takich jak <UserPrompt> czy <prompt>.

  3. Podczas pisania gradera oceniającego odpowiedzi AI strukturyzuj kod według podanego szablonu: otwórz z opisem celu systemu, opcjonalnie dodaj listę dozwolonych jednostek, umieść prompt użytkownika w odpowiednich tagach, a następnie zdefiniuj warunki FAIL i PASS z przypisanymi wynikami.

  4. Jeśli modyfikujesz szablony ataków, postępuj zgodnie ze strukturą DEFAULT_EXAMPLES — każdy przykład powinien zawierać cel systemu i przykładowy prompt ataku, wszystko opakowane w tagi <Example>.

  5. Weryfikuj swoją wtyczkę lub grader pod kątem zgodności z wytycznymi — upewnij się, że wszystkie wymagane tagi są obecne, a struktura rubryk zawiera jasne kryteria oceny.

  6. Testuj wtyczkę w kontekście red team promptfoo, aby potwierdzić, że grader prawidłowo ocenia odpowiedzi modelu i zwraca strukturę zawierającą reason, pass i score.

Podobne skille