Toolverse
Wszystkie skille

add-dataset

autor: inclusionAI

Dodaj nowy loader danych do AReaL w kilka minut

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
1

O skillu

Skill do integracji nowych zbiorów danych w AReaL. Przewodnik krok po kroku pokazuje, jak utworzyć plik loadera, zdefiniować funkcje przetwarzania dla treningu SFT i RL, obsługiwać tokenizację oraz filtrowanie próbek. Idealny dla użytkowników, którzy chcą rozszerzyć AReaL o własne źródła danych bez pisania kodu od zera.

Jak używać

  1. Utwórz nowy plik w katalogu areal/dataset/ o nazwie <nazwa>.py, gdzie <nazwa> to identyfikator Twojego zbioru danych. 2. W pliku zdefiniuj funkcję get_<nazwa>_sft_dataset() przyjmującą ścieżkę do danych, split (train/validation/test), tokenizer i opcjonalnie maksymalną długość sekwencji. Funkcja powinna załadować dataset za pomocą load_dataset(), przetworzyć próbki (tokenizować pytania i odpowiedzi, utworzyć maskę straty) i zwrócić HuggingFace Dataset. 3. Jeśli planujesz trenowanie z reinforcement learning, dodaj drugą funkcję get_<nazwa>_rl_dataset() z analogiczną sygnaturą, dostosowaną do wymagań RL. 4. W funkcji przetwarzającej (process) tokenizuj pełną sekwencję (prompt + odpowiedź + token końca), a następnie utwórz maskę straty: 0 dla tokeny promptu, 1 dla tokeny odpowiedzi. 5. Opcjonalnie filtruj próbki przekraczające max_length za pomocą dataset.filter(). 6. Skill zostanie automatycznie wyzwolony, gdy zapytasz o dodanie nowego zbioru danych lub wspomniasz o integracji loadera — zwróci ten przewodnik wraz z szablonami kodu.

Podobne skille