add-reward

Name: add-reward
Author: inclusionAI

autor: inclusionAI

Dodaj własne funkcje nagród do frameworka AReaL w kilka minut

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: inclusionAI
Kategoria: Backend
Wyświetlenia: 5

Repozytorium GitHub

O skillu

Skill do tworzenia i integracji niestandardowych funkcji nagród w systemie AReaL. Pozwala zdefiniować logikę obliczania nagród dla modeli uczenia maszynowego, porównując wyniki modelu z odpowiedziami wzorcowymi. Zawiera gotowy szablon funkcji z obsługą tokenizacji, ekstrakcji odpowiedzi i obsługi błędów. Idealny dla badaczy i inżynierów pracujących nad dostrajaniem modeli poprzez uczenie ze wzmacnianiem.

Jak używać

Utwórz nowy plik Python w katalogu areal/reward/ o nazwie <nazwa>.py, gdzie <nazwa> to identyfikator Twojej funkcji nagród.
W pliku zdefiniuj główną funkcję <nazwa>_reward_fn() przyjmującą parametry: prompt (tekst wejściowy), completions (odpowiedź modelu), prompt_ids i completion_ids (tokeny), answer (opcjonalna odpowiedź wzorcowa) oraz dodatkowe dane z datasetu.
Zaimplementuj logikę obliczania nagrody wewnątrz funkcji — typowo porównaj ekstrakcję odpowiedzi z wartością wzorcową i zwróć 1.0 dla poprawnej odpowiedzi lub 0.0 dla błędnej. Dodaj obsługę wyjątków z logowaniem.
Utwórz funkcję pomocniczą _extract_answer() do parsowania odpowiedzi z formatu zwracanego przez model — przykład pokazuje ekstrakcję z notacji \boxed{}.
Zarejestruj nową funkcję w pliku areal/reward/__init__.py, dodając jej nazwę do listy VALID_REWARD_FN.
Skill będzie automatycznie dostępny gdy użytkownik poprosi o dodanie funkcji nagród lub wspomni o obliczaniu nagród w kontekście AReaL.

Podobne skille

architecture-decision-records

autor: wshobson

Dokumentuj decyzje architektoniczne w zespole – kontekst, wybór, konsekwencje

Backend

29130

using-superpowers

autor: obra

Zawsze sprawdzaj dostępne umiejętności przed odpowiedzią – nawet jeśli szansa wynosi 1%

Backend

65167

travel-planner

autor: ailabs-393

Spersonalizowane plany podróży z itinerariuszami, budżetami i poradami kulturowymi

Backend

4379

sql-optimization-patterns

autor: wshobson

Zoptymalizuj zapytania SQL i przyspeszy bazę danych dzięki analizie planów wykonania i strategiom indeksowania.

Backend

40163

postgresql-psql

autor: timelessco

Interaktywny terminal do PostgreSQL – wykonuj zapytania, zarządzaj bazami i automatyzuj administrację

Backend

34173

stripe-integration

autor: wshobson

Integracja płatności Stripe z pełną obsługą subskrypcji i webhooków

Backend

40147