Toolverse
Wszystkie skille

data-engineering-data-pipeline

autor: sickn33

Projektuj skalowalne potoki danych – batch, streaming i lakehouse w jednym miejscu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
sickn33
Kategoria
DevOps
Wyświetlenia
14

O skillu

Umiejętność eksperta do architektury potoków danych. Pomagam Ci zaprojektować niezawodne, ekonomiczne rozwiązania dla przetwarzania danych wsadowych i strumieniowych. Otrzymasz wskazówki do wyboru wzorca (ETL, ELT, Lambda, Kappa, Lakehouse), implementacji ingestionu, transformacji danych, zarządzania jakością i monitorowania. Pracuję z narzędziami jak Airflow, Prefect, dbt, Spark, Delta Lake i Iceberg.

Jak używać

  1. Załaduj umiejętność w swoim agencie lub systemie obsługującym skill'e. Umiejętność aktywuje się automatycznie, gdy pracujesz nad architekturą potoków danych.

  2. Opisz swoje źródła danych, wolumeny, wymagania opóźnień i systemy docelowe. Na tej podstawie otrzymasz rekomendację wzorca architektonicznego (ETL do transformacji przed załadowaniem, ELT do transformacji po załadowaniu, Lambda dla hybrydowych rozwiązań batch + stream, Kappa dla potoków tylko strumieniowych, lub Lakehouse dla ujednoliconego podejścia).

  3. Poproś o szczegółowy projekt przepływu: źródła → ingestion → przetwarzanie → magazyn → serwowanie danych. Umiejętność doda punkty obserwacyjności i wskaże, gdzie monitorować potok.

  4. Dla ingestionu wsadowego otrzymasz wzory na ładowanie przyrostowe ze znacznikami wierszy, logikę ponownych prób, walidację schematów i kolejki dla rekordów błędnych. Dla ingestionu strumieniowego – konsumenty Kafki z semantyką dokładnie raz, commity offsetów w transakcjach i okienkowanie dla agregacji czasowych.

  5. Skorzystaj z porad do transformacji danych: dbt dla modelowania, Spark dla dużych wolumenów, Delta Lake lub Iceberg dla transakcji ACID i kontroli wersji. Umiejętność pokaże, jak partycjonować dane i optymalizować koszty.

  6. Wdrażaj ramy jakości danych (Great Expectations, testy dbt) i monitorowanie (CloudWatch, Prometheus, Grafana). Umiejętność dostarczy checklist'y i best practice'e na każdym etapie.

Podobne skille