constitutional-ai
Trenuj bezpieczne modele AI poprzez samoocenę i sprzężenie zwrotne od sztucznej inteligencji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Constitutional AI to metoda Anthropic do szkolenia modeli, które uczą się być bezpieczne bez potrzeby etykiet od ludzi. Wykorzystuje dwufazowe podejście: najpierw model uczy się krytykować i poprawiać własne odpowiedzi na podstawie zestawu zasad (konstytucji), a następnie ulepsza się poprzez uczenie ze sprzężeniem zwrotnym od AI. Idealne do zmniejszania szkodliwych wyników i wyrównywania wartości modeli bez angażowania dużych zespołów anotatorów.
Jak używać
Zainstaluj wymagane biblioteki: transformers, torch i trl. Możesz to zrobić za pomocą pip install transformers torch trl.
Przygotuj zestaw zasad (konstytucję) — listę принципów opisujących pożądane zachowanie modelu. Przykład: "Wybieraj odpowiedzi pomocne, szczere i bezpieczne", "Unikaj treści toksycznych, rasistowskich lub seksistowskich", "Wyjaśniaj zastrzeżenia zamiast odmawiać".
W fazie nadzorowanego uczenia wygeneruj początkowe odpowiedzi modelu na pytania testowe, używając pipeline'u text-generation z biblioteki transformers.
Uruchom fazę samooceny — przekaż każdą wygenerowaną odpowiedź wraz z pytaniem i konstytucją do modelu, aby ten ocenił, czy odpowiedź jest zgodna z zasadami. Model powinien wskazać problemy i zasugerować poprawy.
Pozwól modelowi zrewidować swoje odpowiedzi na podstawie własnej krytyki z kroku 4. To jest kluczowa część fazy nadzorowanego uczenia.
W fazie uczenia ze wzmacnianiem (RLAIF) użyj sprzężenia zwrotnego od modelu do optymalizacji jego parametrów, zamiast polegać na ocenach człowieka. Biblioteka trl zawiera narzędzia do tego procesu.
Podobne skille
software-security
autor: project-codeguard
better-auth-best-practices
autor: novuhq
senior-security
autor: davila7
python-expert
autor: Shubhamsaboo
payload
autor: payloadcms
1password
autor: openclaw