prompt-guard

Name: prompt-guard
Author: Orchestra-Research

autor: Orchestra-Research

Ochrona przed atakami prompt injection i jailbreak dla aplikacji LLM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: Orchestra-Research
Kategoria: Bezpieczeństwo
Wyświetlenia: 3

Repozytorium GitHub

O skillu

Prompt Guard to klasyfikator oparty na modelu Meta z 86 milionami parametrów, który wykrywa próby prompt injection i jailbreak w aplikacjach wykorzystujących duże modele językowe. Narzędzie filtruje złośliwe dane wejściowe i treści od użytkowników trzecich, osiągając dokładność powyżej 99% przy wskaźniku fałszywych alarmów poniżej 1%. Działa w mniej niż 2 milisekundy na GPU i obsługuje 8 języków. Możesz wdrożyć go za pośrednictwem HuggingFace lub w trybie wsadowym dla bezpieczeństwa systemów RAG.

Jak używać

Zainstaluj wymagane biblioteki, uruchamiając w terminalu polecenie pip install transformers torch. 2. Załaduj model i tokenizer z HuggingFace, korzystając z identyfikatora meta-llama/Prompt-Guard-86M. Zainicjuj model w trybie ewaluacji, aby wyłączyć uczenie. 3. Przygotuj funkcję, która przyjmuje tekst wejściowy, tokenizuje go z maksymalną długością 512 znaków i przekazuje do modelu. 4. Oblicz prawdopodobieństwo jailbreak z trzeciego wyjścia modelu (indeks 2) za pomocą softmax. 5. Ustaw próg decyzji (zazwyczaj 0,5) i porównaj wynik: jeśli prawdopodobieństwo przekracza próg, oznacza to wykrycie próby jailbreak. 6. Zintegruj filtrowanie z potokiem aplikacji, aby blokować niebezpieczne dane wejściowe przed przekazaniem ich do modelu językowego.

Podobne skille

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

academic-researcher

autor: Shubhamsaboo

Asystent do analiz naukowych, przeglądów literatury i pisania prac badawczych

Bezpieczeństwo

1260

content-creator

autor: alirezarezvani

Twórz treści SEO z konsystentnym głosem marki – analizator, optymalizator i szablony w jednym

Bezpieczeństwo

25124

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574