Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do tworzenia i integracji niestandardowych funkcji nagród w systemie AReaL. Pozwala zdefiniować logikę obliczania nagród dla modeli uczenia maszynowego, porównując wyniki modelu z odpowiedziami wzorcowymi. Zawiera gotowy szablon funkcji z obsługą tokenizacji, ekstrakcji odpowiedzi i obsługi błędów. Idealny dla badaczy i inżynierów pracujących nad dostrajaniem modeli poprzez uczenie ze wzmacnianiem.
Jak używać
Utwórz nowy plik Python w katalogu
areal/reward/o nazwie<nazwa>.py, gdzie<nazwa>to identyfikator Twojej funkcji nagród.W pliku zdefiniuj główną funkcję
<nazwa>_reward_fn()przyjmującą parametry: prompt (tekst wejściowy), completions (odpowiedź modelu), prompt_ids i completion_ids (tokeny), answer (opcjonalna odpowiedź wzorcowa) oraz dodatkowe dane z datasetu.Zaimplementuj logikę obliczania nagrody wewnątrz funkcji — typowo porównaj ekstrakcję odpowiedzi z wartością wzorcową i zwróć 1.0 dla poprawnej odpowiedzi lub 0.0 dla błędnej. Dodaj obsługę wyjątków z logowaniem.
Utwórz funkcję pomocniczą
_extract_answer()do parsowania odpowiedzi z formatu zwracanego przez model — przykład pokazuje ekstrakcję z notacji\boxed{}.Zarejestruj nową funkcję w pliku
areal/reward/__init__.py, dodając jej nazwę do listyVALID_REWARD_FN.Skill będzie automatycznie dostępny gdy użytkownik poprosi o dodanie funkcji nagród lub wspomni o obliczaniu nagród w kontekście AReaL.