ray-data

Name: ray-data
Author: davila7

autor: davila7

Przetwarzaj ogromne zbiory danych dla ML na wielu maszynach jednocześnie

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 10

Repozytorium GitHub

O skillu

Ray Data to biblioteka do rozproszonego przetwarzania danych dla zadań uczenia maszynowego. Obsługuje przesyłanie strumieniowe na CPU i GPU, pracuje z plikami Parquet, CSV, JSON i obrazami. Integruje się z PyTorch, TensorFlow i Ray Train. Skaluje się od jednego komputera do setek węzłów. Użyj do wnioskowania wsadowego, przygotowania danych, ładowania danych multimodalnych lub potoków ETL na wielu maszynach.

Jak używać

Zainstaluj Ray Data poleceniem pip install -U 'ray[data]' wraz z wymaganymi zależnościami (pyarrow, pandas).
Załaduj dane z magazynu — użyj ray.data.read_parquet() do wczytania plików Parquet z lokalnego dysku lub S3, lub wybierz inny format (CSV, JSON) w zależności od Twoich danych.
Zdefiniuj transformacje danych za pomocą map_batches() — przekaż funkcję, która przetworzy partie danych, np. konwersję tekstu na małe litery lub normalizację obrazów. Ray wykonuje transformacje leniwie, bez ładowania całego zbioru do pamięci.
Iteruj po przetworzonych danych poleceniem iter_batches() z wybranym rozmiarem partii — każda iteracja zwraca gotową do użycia partię danych.
Aby skalować na wiele maszyn, połącz Ray Data z Ray Train — utwórz dataset, skonfiguruj ScalingConfig z liczbą węzłów i GPU, a następnie przekaż dataset do TorchTrainer lub innego trenera Ray Train.
Monitoruj przetwarzanie — Ray automatycznie zarządza dystrybucją pracy między dostępne zasoby (CPU, GPU) i węzły klastra.

Podobne skille

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

python-expert

autor: Shubhamsaboo

Ekspert Pythona – czysty kod, optymalizacja i best practices

Bezpieczeństwo

2777

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260

reverse-engineering-tools

autor: gmh5225

Przewodnik po narzędziach inżynierii wstecznej dla badań bezpieczeństwa gier

Bezpieczeństwo

3168

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111