Toolverse
Wszystkie skille

constitutional-ai

autor: davila7

Trenuj bezpieczne modele AI poprzez samoocenę i sprzężenie zwrotne od sztucznej inteligencji

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
10

O skillu

Constitutional AI to metoda Anthropic do szkolenia modeli, które uczą się być bezpieczne bez potrzeby etykiet od ludzi. Wykorzystuje dwufazowe podejście: najpierw model uczy się krytykować i poprawiać własne odpowiedzi na podstawie zestawu zasad (konstytucji), a następnie ulepsza się poprzez uczenie ze sprzężeniem zwrotnym od AI. Idealne do zmniejszania szkodliwych wyników i wyrównywania wartości modeli bez angażowania dużych zespołów anotatorów.

Jak używać

  1. Zainstaluj wymagane biblioteki: transformers, torch i trl. Możesz to zrobić za pomocą pip install transformers torch trl.

  2. Przygotuj zestaw zasad (konstytucję) — listę принципów opisujących pożądane zachowanie modelu. Przykład: "Wybieraj odpowiedzi pomocne, szczere i bezpieczne", "Unikaj treści toksycznych, rasistowskich lub seksistowskich", "Wyjaśniaj zastrzeżenia zamiast odmawiać".

  3. W fazie nadzorowanego uczenia wygeneruj początkowe odpowiedzi modelu na pytania testowe, używając pipeline'u text-generation z biblioteki transformers.

  4. Uruchom fazę samooceny — przekaż każdą wygenerowaną odpowiedź wraz z pytaniem i konstytucją do modelu, aby ten ocenił, czy odpowiedź jest zgodna z zasadami. Model powinien wskazać problemy i zasugerować poprawy.

  5. Pozwól modelowi zrewidować swoje odpowiedzi na podstawie własnej krytyki z kroku 4. To jest kluczowa część fazy nadzorowanego uczenia.

  6. W fazie uczenia ze wzmacnianiem (RLAIF) użyj sprzężenia zwrotnego od modelu do optymalizacji jego parametrów, zamiast polegać na ocenach człowieka. Biblioteka trl zawiera narzędzia do tego procesu.

Podobne skille