Toolverse
Wszystkie skille

zarr-python

autor: davila7

Przechowuj ogromne tablice wielowymiarowe w chmurze z kompresją i równoległym dostępem

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
DevOps

O skillu

Zarr to biblioteka Pythona do efektywnego przechowywania i przetwarzania dużych tablic N-wymiarowych. Obsługuje chunking (podział na części), kompresję danych oraz bezpośrednią integrację z Amazon S3 i Google Cloud Storage. Kompatybilna z NumPy, Dask i Xarray, umożliwia równoległy I/O i pracę z danymi naukowymi na skalę produkcyjną. Idealna dla pipeline'ów obliczeniowych, analizy danych geoprzestrzennych i przetwarzania wielowymiarowych zbiorów danych w chmurze.

Jak używać

  1. Zainstaluj Zarr za pomocą menadżera pakietów: uruchom uv pip install zarr w terminalu. Wymaga Python 3.11 lub nowszej wersji. Jeśli planujesz pracę z chmurą, zainstaluj dodatkowo uv pip install s3fs dla Amazon S3 lub uv pip install gcsfs dla Google Cloud Storage.

  2. Utwórz nową tablicę wielowymiarową, definiując jej rozmiar, rozmiar chunków i typ danych. Na przykład: zarr.create_array(store="data/my_array.zarr", shape=(10000, 10000), chunks=(1000, 1000), dtype="f4"). Chunki to części tablicy przechowywane osobno, co umożliwia równoległy dostęp i efektywne wykorzystanie pamięci.

  3. Wpisz dane do tablicy, korzystając ze składni indeksowania NumPy: z[:, :] = np.random.random((10000, 10000)). Zarr automatycznie obsługuje kompresję i podział na chunki.

  4. Odczytaj dane z tablicy, wybierając interesujący Cię fragment: data = z[0:100, 0:100]. Zwrócona wartość to tablica NumPy, którą możesz dalej przetwarzać.

  5. Aby pracować z istniejącą tablicą, otwórz ją za pomocą zarr.open_array('data.zarr', mode='r+') dla trybu odczytu-zapisu lub mode='r' dla trybu tylko do odczytu. Funkcja zarr.open() automatycznie rozpoznaje, czy plik zawiera tablicę czy grupę tablic.

Podobne skille