A
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do integracji nowych zbiorów danych w AReaL. Przewodnik krok po kroku pokazuje, jak utworzyć plik loadera, zdefiniować funkcje przetwarzania dla treningu SFT i RL, obsługiwać tokenizację oraz filtrowanie próbek. Idealny dla użytkowników, którzy chcą rozszerzyć AReaL o własne źródła danych bez pisania kodu od zera.
Jak używać
- Utwórz nowy plik w katalogu
areal/dataset/o nazwie<nazwa>.py, gdzie<nazwa>to identyfikator Twojego zbioru danych. 2. W pliku zdefiniuj funkcjęget_<nazwa>_sft_dataset()przyjmującą ścieżkę do danych, split (train/validation/test), tokenizer i opcjonalnie maksymalną długość sekwencji. Funkcja powinna załadować dataset za pomocąload_dataset(), przetworzyć próbki (tokenizować pytania i odpowiedzi, utworzyć maskę straty) i zwrócić HuggingFace Dataset. 3. Jeśli planujesz trenowanie z reinforcement learning, dodaj drugą funkcjęget_<nazwa>_rl_dataset()z analogiczną sygnaturą, dostosowaną do wymagań RL. 4. W funkcji przetwarzającej (process) tokenizuj pełną sekwencję (prompt + odpowiedź + token końca), a następnie utwórz maskę straty: 0 dla tokeny promptu, 1 dla tokeny odpowiedzi. 5. Opcjonalnie filtruj próbki przekraczającemax_lengthza pomocądataset.filter(). 6. Skill zostanie automatycznie wyzwolony, gdy zapytasz o dodanie nowego zbioru danych lub wspomniasz o integracji loadera — zwróci ten przewodnik wraz z szablonami kodu.