llamaguard
Filtruj niebezpieczne treści w chatach AI – model Meta z 94-95% dokładnością
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
LlamaGuard to wyspecjalizowany model moderacji treści od Mety, oparty na 7-8 miliardach parametrów. Automatycznie klasyfikuje wejścia i wyjścia chatbotów w 6 kategoriach zagrożeń: przemoc, mowa nienawiści, treści seksualne, broń, substancje, samookaleczenie i planowanie przestępstw. Osiąga 94-95% dokładność. Wdrażasz go przez vLLM, HuggingFace lub Sagemaker, a integracja z NeMo Guardrails ułatwia osadzenie w istniejących systemach bezpieczeństwa.
Jak używać
Zainstaluj wymagane biblioteki: uruchom
pip install transformers torch, a następnie zaloguj się do HuggingFace za pomocąhuggingface-cli login– dostęp do modelu Meta wymaga autoryzacji.Zaimportuj model i tokenizer w swoim skrypcie Pythona: użyj
AutoTokenizeriAutoModelForCausalLMz biblioteki transformers, wskazując model-id "meta-llama/LlamaGuard-7b" i ustawiającdevice_map="auto"dla automatycznego przydzielenia GPU.Zdefiniuj funkcję moderacji, która przyjmuje wiadomość użytkownika, konwertuje ją do tokenów za pomocą
apply_chat_template, generuje klasyfikację modelem i dekoduje wynik – model zwraca "unsafe" lub "safe" wraz z kodem kategorii (np. "S3" dla planowania przestępstw).Sprawdzaj bezpieczeństwo wejścia przed wysłaniem do głównego chatbota: wywołaj funkcję moderacji na wiadomości użytkownika, a jeśli wynik zaczyna się od "unsafe", zablokuj żądanie i zwróć błąd – w przeciwnym razie pozwól na przetworzenie.
Opcjonalnie zintegruj z NeMo Guardrails, aby osadzić LlamaGuard w szerszym systemie bezpieczeństwa i automatyzować przepływ kontroli treści w całej aplikacji.