zarr-python
Przechowuj ogromne tablice wielowymiarowe w chmurze z kompresją i równoległym dostępem
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Zarr to biblioteka Pythona do efektywnego przechowywania i przetwarzania dużych tablic N-wymiarowych. Obsługuje chunking (podział na części), kompresję danych oraz bezpośrednią integrację z Amazon S3 i Google Cloud Storage. Kompatybilna z NumPy, Dask i Xarray, umożliwia równoległy I/O i pracę z danymi naukowymi na skalę produkcyjną. Idealna dla pipeline'ów obliczeniowych, analizy danych geoprzestrzennych i przetwarzania wielowymiarowych zbiorów danych w chmurze.
Jak używać
Zainstaluj Zarr za pomocą menadżera pakietów: uruchom
uv pip install zarrw terminalu. Wymaga Python 3.11 lub nowszej wersji. Jeśli planujesz pracę z chmurą, zainstaluj dodatkowouv pip install s3fsdla Amazon S3 lubuv pip install gcsfsdla Google Cloud Storage.Utwórz nową tablicę wielowymiarową, definiując jej rozmiar, rozmiar chunków i typ danych. Na przykład:
zarr.create_array(store="data/my_array.zarr", shape=(10000, 10000), chunks=(1000, 1000), dtype="f4"). Chunki to części tablicy przechowywane osobno, co umożliwia równoległy dostęp i efektywne wykorzystanie pamięci.Wpisz dane do tablicy, korzystając ze składni indeksowania NumPy:
z[:, :] = np.random.random((10000, 10000)). Zarr automatycznie obsługuje kompresję i podział na chunki.Odczytaj dane z tablicy, wybierając interesujący Cię fragment:
data = z[0:100, 0:100]. Zwrócona wartość to tablica NumPy, którą możesz dalej przetwarzać.Aby pracować z istniejącą tablicą, otwórz ją za pomocą
zarr.open_array('data.zarr', mode='r+')dla trybu odczytu-zapisu lubmode='r'dla trybu tylko do odczytu. Funkcjazarr.open()automatycznie rozpoznaje, czy plik zawiera tablicę czy grupę tablic.