D
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Dask to biblioteka Pythona do obliczeń równoległych i rozproszonych. Pozwala pracować z zestawami danych większymi niż dostępna pamięć RAM, skalując operacje pandas i NumPy na pojedynczych maszynach lub klastrach. Obsługuje przetwarzanie wielu plików (CSV, Parquet, JSON), budowanie niestandardowych przepływów pracy z zależnościami zadań oraz rozprowadzanie obciążenia na wiele rdzeni lub maszyn. Idealne do ETL, analizy szeregów czasowych i pracy z danymi terabajtowymi.
Jak używać
- Zainstaluj bibliotekę Dask w swoim środowisku Python za pomocą pip (pip install dask[dataframe]).
- Zaimportuj moduł dask.dataframe, aby pracować z danymi tabelarycznymi w formacie równoległym, analogicznie do pandas.
- Wczytaj dane z jednego lub wielu plików (CSV, Parquet, JSON) używając funkcji read_csv, read_parquet lub read_json z dask.dataframe — obsługuje wzorce glob do przetwarzania całych katalogów.
- Wykonuj operacje na danych (filtrowanie, groupby, agregacje, złączenia) tak jak w pandas — Dask automatycznie paralelizuje obliczenia na dostępnych rdzeniach.
- Dla zaawansowanych przypadków użyj map_partitions do zastosowania niestandardowych funkcji na poszczególnych partycjach danych.
- Wywołaj compute() na wyniku, aby uruchomić obliczenia i pobrać ostateczny wynik — Dask buduje graf zadań i wykonuje go efektywnie.