Toolverse
Wszystkie skille

prompt-guard

autor: Orchestra-Research

Ochrona przed atakami prompt injection i jailbreak dla aplikacji LLM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
3

O skillu

Prompt Guard to klasyfikator oparty na modelu Meta z 86 milionami parametrów, który wykrywa próby prompt injection i jailbreak w aplikacjach wykorzystujących duże modele językowe. Narzędzie filtruje złośliwe dane wejściowe i treści od użytkowników trzecich, osiągając dokładność powyżej 99% przy wskaźniku fałszywych alarmów poniżej 1%. Działa w mniej niż 2 milisekundy na GPU i obsługuje 8 języków. Możesz wdrożyć go za pośrednictwem HuggingFace lub w trybie wsadowym dla bezpieczeństwa systemów RAG.

Jak używać

  1. Zainstaluj wymagane biblioteki, uruchamiając w terminalu polecenie pip install transformers torch. 2. Załaduj model i tokenizer z HuggingFace, korzystając z identyfikatora meta-llama/Prompt-Guard-86M. Zainicjuj model w trybie ewaluacji, aby wyłączyć uczenie. 3. Przygotuj funkcję, która przyjmuje tekst wejściowy, tokenizuje go z maksymalną długością 512 znaków i przekazuje do modelu. 4. Oblicz prawdopodobieństwo jailbreak z trzeciego wyjścia modelu (indeks 2) za pomocą softmax. 5. Ustaw próg decyzji (zazwyczaj 0,5) i porównaj wynik: jeśli prawdopodobieństwo przekracza próg, oznacza to wykrycie próby jailbreak. 6. Zintegruj filtrowanie z potokiem aplikacji, aby blokować niebezpieczne dane wejściowe przed przekazaniem ich do modelu językowego.

Podobne skille