add-dataset

Name: add-dataset
Author: inclusionAI

autor: inclusionAI

Dodaj nowy loader danych do AReaL w kilka minut

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: inclusionAI
Kategoria: Data Science
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Skill do integracji nowych zbiorów danych w AReaL. Przewodnik krok po kroku pokazuje, jak utworzyć plik loadera, zdefiniować funkcje przetwarzania dla treningu SFT i RL, obsługiwać tokenizację oraz filtrowanie próbek. Idealny dla użytkowników, którzy chcą rozszerzyć AReaL o własne źródła danych bez pisania kodu od zera.

Jak używać

Utwórz nowy plik w katalogu areal/dataset/ o nazwie <nazwa>.py, gdzie <nazwa> to identyfikator Twojego zbioru danych. 2. W pliku zdefiniuj funkcję get_<nazwa>_sft_dataset() przyjmującą ścieżkę do danych, split (train/validation/test), tokenizer i opcjonalnie maksymalną długość sekwencji. Funkcja powinna załadować dataset za pomocą load_dataset(), przetworzyć próbki (tokenizować pytania i odpowiedzi, utworzyć maskę straty) i zwrócić HuggingFace Dataset. 3. Jeśli planujesz trenowanie z reinforcement learning, dodaj drugą funkcję get_<nazwa>_rl_dataset() z analogiczną sygnaturą, dostosowaną do wymagań RL. 4. W funkcji przetwarzającej (process) tokenizuj pełną sekwencję (prompt + odpowiedź + token końca), a następnie utwórz maskę straty: 0 dla tokeny promptu, 1 dla tokeny odpowiedzi. 5. Opcjonalnie filtruj próbki przekraczające max_length za pomocą dataset.filter(). 6. Skill zostanie automatycznie wyzwolony, gdy zapytasz o dodanie nowego zbioru danych lub wspomniasz o integracji loadera — zwróci ten przewodnik wraz z szablonami kodu.

Podobne skille

deepwiki-rs

autor: sopaco

Generuj dokumentację architektury i analizuj kod za pomocą AI — bez ręcznego pisania

Data Science

18144

rust-coding-skill

autor: UtakataKyosui

Umiejętność Claude'a do pisania idiomatycznego, wydajnego kodu w Rust z prawidłową architekturą

Data Science

248325

claude-automation-recommender

autor: anthropics

Analizuj kod i odkryj, jakie automatyzacje Claude Code będą dla Ciebie najlepsze

Data Science

1787

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

threejs

autor: mrgoonie

Twórz interaktywne aplikacje 3D w przeglądarce z Three.js i WebGL

Data Science

1743

skill-creator

autor: anthropics

Twórz umiejętności dla Claude'a – rozszerz jego możliwości o specjalistyczną wiedzę i przepływy pracy

Data Science

59147