data-engineering

Name: data-engineering
Author: pluginagentmarketplace

autor: pluginagentmarketplace

Buduj skalowalne potoki danych i infrastrukturę do przetwarzania big data

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: pluginagentmarketplace
Kategoria: DevOps
Wyświetlenia: 133

Repozytorium GitHub

O skillu

Skill do tworzenia wydajnych potoków ETL, przetwarzania dużych zbiorów danych i zarządzania magazynami danych. Wykorzystaj Apache Spark do transformacji i agregacji danych na skalę, Apache Airflow do orkiestracji zadań, oraz partycjonowania wyników w systemach magazynowania. Idealne dla inżynierów danych budujących infrastrukturę analityczną od zera lub optymalizujących istniejące procesy.

Jak używać

Zainstaluj wymagane biblioteki: PySpark do przetwarzania rozproszonego oraz Apache Airflow do orkiestracji potoków. Upewnij się, że masz dostęp do klastra Spark i systemu magazynowania (S3, HDFS lub innego).
Zainicjuj sesję Spark w swoim skrypcie, konfigurując parametry takie jak pamięć executora i nazwa aplikacji. Użyj SparkSession.builder do utworzenia połączenia z klastrem.
Wczytaj dane z zewnętrznego źródła (np. pliki Parquet z S3) za pomocą spark.read. Określ format i ścieżkę do danych źródłowych.
Zastosuj transformacje danych: filtruj wiersze, grupuj po kolumnach, obliczaj agregaty (sumę, średnią, liczbę). Spark wykonuje te operacje leniwie, optymalizując plan zapytania.
Zapisz przetworzone dane do magazynu danych, wybierając tryb zapisu (overwrite lub append) i partycjonując wyniki po dacie lub innym kluczu dla lepszej wydajności.
Dla automatyzacji powtarzalnych procesów zdefiniuj DAG w Apache Airflow: utwórz funkcje extract, transform i load, połącz je w sekwencję zadań, ustaw harmonogram (np. codziennie) i konfiguruj powiadomienia o błędach.

Podobne skille

task-master

autor: sfc-gh-dflippo

Zarządzaj złożonymi projektami z AI — automatyczne rozbijanie zadań, śledzenie zależności, specification-driven development

DevOps

14126

3d-games

autor: davila7

Naucz się zasad tworzenia gier 3D: renderowania, shaderów, fizyki i kamer

DevOps

1355

senior-computer-vision

autor: davila7

Zaawansowana umiejętność widzenia komputerowego do budowy produkcyjnych systemów AI z detekcją obiektów i segmentacją.

DevOps

1044

drawio-diagrams-enhanced

autor: jgtolentino

Twórz profesjonalne diagramy draw.io z metodologią PMP i bibliotekami ikon

DevOps

918943

grafana-dashboards

autor: wshobson

Twórz dashboardy Grafany do monitorowania metryk systemowych i aplikacyjnych w czasie rzeczywistym

DevOps

92262

draw-io

autor: davila7

Twórz i edytuj diagramy draw.io bezpośrednio z poziomu Claude'a — konwertuj do PNG i dostosuj układ

DevOps

1693