Toolverse
Wszystkie skille

llamaguard

autor: davila7

Filtruj niebezpieczne treści w chatach AI – model Meta z 94-95% dokładnością

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
2

O skillu

LlamaGuard to wyspecjalizowany model moderacji treści od Mety, oparty na 7-8 miliardach parametrów. Automatycznie klasyfikuje wejścia i wyjścia chatbotów w 6 kategoriach zagrożeń: przemoc, mowa nienawiści, treści seksualne, broń, substancje, samookaleczenie i planowanie przestępstw. Osiąga 94-95% dokładność. Wdrażasz go przez vLLM, HuggingFace lub Sagemaker, a integracja z NeMo Guardrails ułatwia osadzenie w istniejących systemach bezpieczeństwa.

Jak używać

  1. Zainstaluj wymagane biblioteki: uruchom pip install transformers torch, a następnie zaloguj się do HuggingFace za pomocą huggingface-cli login – dostęp do modelu Meta wymaga autoryzacji.

  2. Zaimportuj model i tokenizer w swoim skrypcie Pythona: użyj AutoTokenizer i AutoModelForCausalLM z biblioteki transformers, wskazując model-id "meta-llama/LlamaGuard-7b" i ustawiając device_map="auto" dla automatycznego przydzielenia GPU.

  3. Zdefiniuj funkcję moderacji, która przyjmuje wiadomość użytkownika, konwertuje ją do tokenów za pomocą apply_chat_template, generuje klasyfikację modelem i dekoduje wynik – model zwraca "unsafe" lub "safe" wraz z kodem kategorii (np. "S3" dla planowania przestępstw).

  4. Sprawdzaj bezpieczeństwo wejścia przed wysłaniem do głównego chatbota: wywołaj funkcję moderacji na wiadomości użytkownika, a jeśli wynik zaczyna się od "unsafe", zablokuj żądanie i zwróć błąd – w przeciwnym razie pozwól na przetworzenie.

  5. Opcjonalnie zintegruj z NeMo Guardrails, aby osadzić LlamaGuard w szerszym systemie bezpieczeństwa i automatyzować przepływ kontroli treści w całej aplikacji.

Podobne skille