ray-data
Przetwarzaj ogromne zbiory danych dla ML na wielu maszynach jednocześnie
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Ray Data to biblioteka do rozproszonego przetwarzania danych dla zadań uczenia maszynowego. Obsługuje przesyłanie strumieniowe na CPU i GPU, pracuje z plikami Parquet, CSV, JSON i obrazami. Integruje się z PyTorch, TensorFlow i Ray Train. Skaluje się od jednego komputera do setek węzłów. Użyj do wnioskowania wsadowego, przygotowania danych, ładowania danych multimodalnych lub potoków ETL na wielu maszynach.
Jak używać
Zainstaluj Ray Data poleceniem
pip install -U 'ray[data]'wraz z wymaganymi zależnościami (pyarrow, pandas).Załaduj dane z magazynu — użyj
ray.data.read_parquet()do wczytania plików Parquet z lokalnego dysku lub S3, lub wybierz inny format (CSV, JSON) w zależności od Twoich danych.Zdefiniuj transformacje danych za pomocą
map_batches()— przekaż funkcję, która przetworzy partie danych, np. konwersję tekstu na małe litery lub normalizację obrazów. Ray wykonuje transformacje leniwie, bez ładowania całego zbioru do pamięci.Iteruj po przetworzonych danych poleceniem
iter_batches()z wybranym rozmiarem partii — każda iteracja zwraca gotową do użycia partię danych.Aby skalować na wiele maszyn, połącz Ray Data z Ray Train — utwórz dataset, skonfiguruj
ScalingConfigz liczbą węzłów i GPU, a następnie przekaż dataset doTorchTrainerlub innego trenera Ray Train.Monitoruj przetwarzanie — Ray automatycznie zarządza dystrybucją pracy między dostępne zasoby (CPU, GPU) i węzły klastra.