constitutional-ai

Name: constitutional-ai
Author: davila7

autor: davila7

Trenuj bezpieczne modele AI poprzez samoocenę i sprzężenie zwrotne od sztucznej inteligencji

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 10

Repozytorium GitHub

O skillu

Constitutional AI to metoda Anthropic do szkolenia modeli, które uczą się być bezpieczne bez potrzeby etykiet od ludzi. Wykorzystuje dwufazowe podejście: najpierw model uczy się krytykować i poprawiać własne odpowiedzi na podstawie zestawu zasad (konstytucji), a następnie ulepsza się poprzez uczenie ze sprzężeniem zwrotnym od AI. Idealne do zmniejszania szkodliwych wyników i wyrównywania wartości modeli bez angażowania dużych zespołów anotatorów.

Jak używać

Zainstaluj wymagane biblioteki: transformers, torch i trl. Możesz to zrobić za pomocą pip install transformers torch trl.
Przygotuj zestaw zasad (konstytucję) — listę принципów opisujących pożądane zachowanie modelu. Przykład: "Wybieraj odpowiedzi pomocne, szczere i bezpieczne", "Unikaj treści toksycznych, rasistowskich lub seksistowskich", "Wyjaśniaj zastrzeżenia zamiast odmawiać".
W fazie nadzorowanego uczenia wygeneruj początkowe odpowiedzi modelu na pytania testowe, używając pipeline'u text-generation z biblioteki transformers.
Uruchom fazę samooceny — przekaż każdą wygenerowaną odpowiedź wraz z pytaniem i konstytucją do modelu, aby ten ocenił, czy odpowiedź jest zgodna z zasadami. Model powinien wskazać problemy i zasugerować poprawy.
Pozwól modelowi zrewidować swoje odpowiedzi na podstawie własnej krytyki z kroku 4. To jest kluczowa część fazy nadzorowanego uczenia.
W fazie uczenia ze wzmacnianiem (RLAIF) użyj sprzężenia zwrotnego od modelu do optymalizacji jego parametrów, zamiast polegać na ocenach człowieka. Biblioteka trl zawiera narzędzia do tego procesu.

Podobne skille

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

python-expert

autor: Shubhamsaboo

Ekspert Pythona – czysty kod, optymalizacja i best practices

Bezpieczeństwo

2777

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

1password

autor: openclaw

Zarządzaj hasłami i sekretami przez CLI 1Password bezpośrednio z agentów AI

Bezpieczeństwo

1174