redteam-plugin-development

Name: redteam-plugin-development
Author: promptfoo

autor: promptfoo

Standardy tworzenia wtyczek red team do testowania bezpieczeństwa modeli AI

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: promptfoo
Kategoria: Bezpieczeństwo
Wyświetlenia: 36

Repozytorium GitHub

O skillu

Skill Claude'a definiujący standardy i best practices dla twórców wtyczek red team oraz graderów oceniających odpowiedzi AI. Zawiera wytyczne dotyczące znormalizowanych tagów, struktury rubryk oceniających i szablonów ataków. Używaj tego przy tworzeniu nowych wtyczek, pisaniu graderów lub modyfikowaniu szablonów testów bezpieczeństwa. Zapewnia spójność i czytelność kodu w całym ekosystemie promptfoo.

Jak używać

Zainstaluj skill redteam-plugin-development w swoim środowisku Claude'a lub Codex'a, pobierając go z repozytorium promptfoo na GitHub.
Przed utworzeniem nowej wtyczki lub gradera zapoznaj się z wymaganiami dotyczącymi znormalizowanych tagów — zawsze używaj <UserQuery>{{prompt}}</UserQuery> dla promptu użytkownika i <purpose>{{purpose}}</purpose> dla celu systemu, nigdy nie stosuj przestarzałych wariantów takich jak <UserPrompt> czy <prompt>.
Podczas pisania gradera oceniającego odpowiedzi AI strukturyzuj kod według podanego szablonu: otwórz z opisem celu systemu, opcjonalnie dodaj listę dozwolonych jednostek, umieść prompt użytkownika w odpowiednich tagach, a następnie zdefiniuj warunki FAIL i PASS z przypisanymi wynikami.
Jeśli modyfikujesz szablony ataków, postępuj zgodnie ze strukturą DEFAULT_EXAMPLES — każdy przykład powinien zawierać cel systemu i przykładowy prompt ataku, wszystko opakowane w tagi <Example>.
Weryfikuj swoją wtyczkę lub grader pod kątem zgodności z wytycznymi — upewnij się, że wszystkie wymagane tagi są obecne, a struktura rubryk zawiera jasne kryteria oceny.
Testuj wtyczkę w kontekście red team promptfoo, aby potwierdzić, że grader prawidłowo ocenia odpowiedzi modelu i zwraca strukturę zawierającą reason, pass i score.

Podobne skille

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158