Toolverse
Wszystkie skille

add-reward

autor: inclusionAI

Dodaj własne funkcje nagród do frameworka AReaL w kilka minut

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Backend
Wyświetlenia
5

O skillu

Skill do tworzenia i integracji niestandardowych funkcji nagród w systemie AReaL. Pozwala zdefiniować logikę obliczania nagród dla modeli uczenia maszynowego, porównując wyniki modelu z odpowiedziami wzorcowymi. Zawiera gotowy szablon funkcji z obsługą tokenizacji, ekstrakcji odpowiedzi i obsługi błędów. Idealny dla badaczy i inżynierów pracujących nad dostrajaniem modeli poprzez uczenie ze wzmacnianiem.

Jak używać

  1. Utwórz nowy plik Python w katalogu areal/reward/ o nazwie <nazwa>.py, gdzie <nazwa> to identyfikator Twojej funkcji nagród.

  2. W pliku zdefiniuj główną funkcję <nazwa>_reward_fn() przyjmującą parametry: prompt (tekst wejściowy), completions (odpowiedź modelu), prompt_ids i completion_ids (tokeny), answer (opcjonalna odpowiedź wzorcowa) oraz dodatkowe dane z datasetu.

  3. Zaimplementuj logikę obliczania nagrody wewnątrz funkcji — typowo porównaj ekstrakcję odpowiedzi z wartością wzorcową i zwróć 1.0 dla poprawnej odpowiedzi lub 0.0 dla błędnej. Dodaj obsługę wyjątków z logowaniem.

  4. Utwórz funkcję pomocniczą _extract_answer() do parsowania odpowiedzi z formatu zwracanego przez model — przykład pokazuje ekstrakcję z notacji \boxed{}.

  5. Zarejestruj nową funkcję w pliku areal/reward/__init__.py, dodając jej nazwę do listy VALID_REWARD_FN.

  6. Skill będzie automatycznie dostępny gdy użytkownik poprosi o dodanie funkcji nagród lub wspomni o obliczaniu nagród w kontekście AReaL.

Podobne skille