Toolverse
Wszystkie skille

ray-data

autor: davila7

Przetwarzaj ogromne zbiory danych dla ML na wielu maszynach jednocześnie

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
10

O skillu

Ray Data to biblioteka do rozproszonego przetwarzania danych dla zadań uczenia maszynowego. Obsługuje przesyłanie strumieniowe na CPU i GPU, pracuje z plikami Parquet, CSV, JSON i obrazami. Integruje się z PyTorch, TensorFlow i Ray Train. Skaluje się od jednego komputera do setek węzłów. Użyj do wnioskowania wsadowego, przygotowania danych, ładowania danych multimodalnych lub potoków ETL na wielu maszynach.

Jak używać

  1. Zainstaluj Ray Data poleceniem pip install -U 'ray[data]' wraz z wymaganymi zależnościami (pyarrow, pandas).

  2. Załaduj dane z magazynu — użyj ray.data.read_parquet() do wczytania plików Parquet z lokalnego dysku lub S3, lub wybierz inny format (CSV, JSON) w zależności od Twoich danych.

  3. Zdefiniuj transformacje danych za pomocą map_batches() — przekaż funkcję, która przetworzy partie danych, np. konwersję tekstu na małe litery lub normalizację obrazów. Ray wykonuje transformacje leniwie, bez ładowania całego zbioru do pamięci.

  4. Iteruj po przetworzonych danych poleceniem iter_batches() z wybranym rozmiarem partii — każda iteracja zwraca gotową do użycia partię danych.

  5. Aby skalować na wiele maszyn, połącz Ray Data z Ray Train — utwórz dataset, skonfiguruj ScalingConfig z liczbą węzłów i GPU, a następnie przekaż dataset do TorchTrainer lub innego trenera Ray Train.

  6. Monitoruj przetwarzanie — Ray automatycznie zarządza dystrybucją pracy między dostępne zasoby (CPU, GPU) i węzły klastra.

Podobne skille