Toolverse
Wszystkie skille

dask

autor: davila7

Przetwarzaj duże zbiory danych równolegle, bez ograniczeń pamięci RAM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Data Science
Wyświetlenia
5

O skillu

Dask to biblioteka Pythona do obliczeń równoległych i rozproszonych. Pozwala pracować z zestawami danych większymi niż dostępna pamięć RAM, skalując operacje pandas i NumPy na pojedynczych maszynach lub klastrach. Obsługuje przetwarzanie wielu plików (CSV, Parquet, JSON), budowanie niestandardowych przepływów pracy z zależnościami zadań oraz rozprowadzanie obciążenia na wiele rdzeni lub maszyn. Idealne do ETL, analizy szeregów czasowych i pracy z danymi terabajtowymi.

Jak używać

  1. Zainstaluj bibliotekę Dask w swoim środowisku Python za pomocą pip (pip install dask[dataframe]).
  2. Zaimportuj moduł dask.dataframe, aby pracować z danymi tabelarycznymi w formacie równoległym, analogicznie do pandas.
  3. Wczytaj dane z jednego lub wielu plików (CSV, Parquet, JSON) używając funkcji read_csv, read_parquet lub read_json z dask.dataframe — obsługuje wzorce glob do przetwarzania całych katalogów.
  4. Wykonuj operacje na danych (filtrowanie, groupby, agregacje, złączenia) tak jak w pandas — Dask automatycznie paralelizuje obliczenia na dostępnych rdzeniach.
  5. Dla zaawansowanych przypadków użyj map_partitions do zastosowania niestandardowych funkcji na poszczególnych partycjach danych.
  6. Wywołaj compute() na wyniku, aby uruchomić obliczenia i pobrać ostateczny wynik — Dask buduje graf zadań i wykonuje go efektywnie.

Podobne skille