llamaguard

Name: llamaguard
Author: davila7

autor: davila7

Filtruj niebezpieczne treści w chatach AI – model Meta z 94-95% dokładnością

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 2

Repozytorium GitHub

O skillu

LlamaGuard to wyspecjalizowany model moderacji treści od Mety, oparty na 7-8 miliardach parametrów. Automatycznie klasyfikuje wejścia i wyjścia chatbotów w 6 kategoriach zagrożeń: przemoc, mowa nienawiści, treści seksualne, broń, substancje, samookaleczenie i planowanie przestępstw. Osiąga 94-95% dokładność. Wdrażasz go przez vLLM, HuggingFace lub Sagemaker, a integracja z NeMo Guardrails ułatwia osadzenie w istniejących systemach bezpieczeństwa.

Jak używać

Zainstaluj wymagane biblioteki: uruchom pip install transformers torch, a następnie zaloguj się do HuggingFace za pomocą huggingface-cli login – dostęp do modelu Meta wymaga autoryzacji.
Zaimportuj model i tokenizer w swoim skrypcie Pythona: użyj AutoTokenizer i AutoModelForCausalLM z biblioteki transformers, wskazując model-id "meta-llama/LlamaGuard-7b" i ustawiając device_map="auto" dla automatycznego przydzielenia GPU.
Zdefiniuj funkcję moderacji, która przyjmuje wiadomość użytkownika, konwertuje ją do tokenów za pomocą apply_chat_template, generuje klasyfikację modelem i dekoduje wynik – model zwraca "unsafe" lub "safe" wraz z kodem kategorii (np. "S3" dla planowania przestępstw).
Sprawdzaj bezpieczeństwo wejścia przed wysłaniem do głównego chatbota: wywołaj funkcję moderacji na wiadomości użytkownika, a jeśli wynik zaczyna się od "unsafe", zablokuj żądanie i zwróć błąd – w przeciwnym razie pozwól na przetworzenie.
Opcjonalnie zintegruj z NeMo Guardrails, aby osadzić LlamaGuard w szerszym systemie bezpieczeństwa i automatyzować przepływ kontroli treści w całej aplikacji.

Podobne skille

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

1password

autor: openclaw

Zarządzaj hasłami i sekretami przez CLI 1Password bezpośrednio z agentów AI

Bezpieczeństwo

1174

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133