data-engineering
Buduj skalowalne potoki danych i infrastrukturę do przetwarzania big data
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do tworzenia wydajnych potoków ETL, przetwarzania dużych zbiorów danych i zarządzania magazynami danych. Wykorzystaj Apache Spark do transformacji i agregacji danych na skalę, Apache Airflow do orkiestracji zadań, oraz partycjonowania wyników w systemach magazynowania. Idealne dla inżynierów danych budujących infrastrukturę analityczną od zera lub optymalizujących istniejące procesy.
Jak używać
Zainstaluj wymagane biblioteki: PySpark do przetwarzania rozproszonego oraz Apache Airflow do orkiestracji potoków. Upewnij się, że masz dostęp do klastra Spark i systemu magazynowania (S3, HDFS lub innego).
Zainicjuj sesję Spark w swoim skrypcie, konfigurując parametry takie jak pamięć executora i nazwa aplikacji. Użyj SparkSession.builder do utworzenia połączenia z klastrem.
Wczytaj dane z zewnętrznego źródła (np. pliki Parquet z S3) za pomocą spark.read. Określ format i ścieżkę do danych źródłowych.
Zastosuj transformacje danych: filtruj wiersze, grupuj po kolumnach, obliczaj agregaty (sumę, średnią, liczbę). Spark wykonuje te operacje leniwie, optymalizując plan zapytania.
Zapisz przetworzone dane do magazynu danych, wybierając tryb zapisu (overwrite lub append) i partycjonując wyniki po dacie lub innym kluczu dla lepszej wydajności.
Dla automatyzacji powtarzalnych procesów zdefiniuj DAG w Apache Airflow: utwórz funkcje extract, transform i load, połącz je w sekwencję zadań, ustaw harmonogram (np. codziennie) i konfiguruj powiadomienia o błędach.