Toolverse
Wszystkie skille

data-engineer

autor: sickn33

Projektuj skalowalne potoki danych i nowoczesne magazyny z Apache Spark, dbt i Airflow

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
sickn33
Kategoria
DevOps
Wyświetlenia
19

O skillu

Umiejętność inżyniera danych do budowania niezawodnych potoków danych, magazynów i architektur lakehouse. Obejmuje projektowanie batch'owych i streamingowych potoków, implementację data mesh, integrację nowoczesnego stosu danych (Fivetran/Airbyte + dbt + Snowflake/BigQuery) oraz monitorowanie jakości i kosztów. Użyj proaktywnie do projektowania infrastruktury analitycznej, implementacji governance danych lub budowy platform cloud-native.

Jak używać

  1. Załaduj umiejętność data-engineer do swojego agenta lub Claude'a. Umiejętność aktywuje się automatycznie, gdy będziesz projektować potoki danych, magazyny lub architektury lakehouse.

  2. Zdefiniuj źródła danych, umowy dotyczące danych (data contracts) i wymagane SLA. Opisz, skąd pochodzą dane, jak często się aktualizują i jakie są wymagania dotyczące opóźnień.

  3. Wybierz architekturę i narzędzia: określ, czy potrzebujesz przetwarzania batch'owego czy streamingowego, jakie magazyny danych (Snowflake, BigQuery, Redshift) i narzędzia orkiestracji (Airflow, dbt) będą pasować do Twoich wymagań.

  4. Zaplanuj ingestion, transformacje i walidację danych. Umiejętność pomoże Ci zbudować etapy oczyszczania, transformacji i kontroli jakości przed zapisem do systemów produkcyjnych.

  5. Wdrażaj zabezpieczenia: upewnij się, że dane osobowe (PII) są chronione, zastosuj least-privilege access i waliduj dane przed zapisem w produkcji.

  6. Monitoruj niezawodność, koszty i wydajność potoków. Umiejętność wspiera ustawienie alertów, śledzenie lineage danych i optymalizację kosztów infrastruktury cloud.

Podobne skille