redteam-plugin-development
Standardy tworzenia wtyczek red team do testowania bezpieczeństwa modeli AI
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill Claude'a definiujący standardy i best practices dla twórców wtyczek red team oraz graderów oceniających odpowiedzi AI. Zawiera wytyczne dotyczące znormalizowanych tagów, struktury rubryk oceniających i szablonów ataków. Używaj tego przy tworzeniu nowych wtyczek, pisaniu graderów lub modyfikowaniu szablonów testów bezpieczeństwa. Zapewnia spójność i czytelność kodu w całym ekosystemie promptfoo.
Jak używać
Zainstaluj skill redteam-plugin-development w swoim środowisku Claude'a lub Codex'a, pobierając go z repozytorium promptfoo na GitHub.
Przed utworzeniem nowej wtyczki lub gradera zapoznaj się z wymaganiami dotyczącymi znormalizowanych tagów — zawsze używaj
<UserQuery>{{prompt}}</UserQuery>dla promptu użytkownika i<purpose>{{purpose}}</purpose>dla celu systemu, nigdy nie stosuj przestarzałych wariantów takich jak<UserPrompt>czy<prompt>.Podczas pisania gradera oceniającego odpowiedzi AI strukturyzuj kod według podanego szablonu: otwórz z opisem celu systemu, opcjonalnie dodaj listę dozwolonych jednostek, umieść prompt użytkownika w odpowiednich tagach, a następnie zdefiniuj warunki FAIL i PASS z przypisanymi wynikami.
Jeśli modyfikujesz szablony ataków, postępuj zgodnie ze strukturą DEFAULT_EXAMPLES — każdy przykład powinien zawierać cel systemu i przykładowy prompt ataku, wszystko opakowane w tagi
<Example>.Weryfikuj swoją wtyczkę lub grader pod kątem zgodności z wytycznymi — upewnij się, że wszystkie wymagane tagi są obecne, a struktura rubryk zawiera jasne kryteria oceny.
Testuj wtyczkę w kontekście red team promptfoo, aby potwierdzić, że grader prawidłowo ocenia odpowiedzi modelu i zwraca strukturę zawierającą reason, pass i score.