Toolverse
Wszystkie skille

databricks-local-dev-loop

autor: jeremylongshore

Skonfiguruj lokalne środowisko programistyczne Databricks z szybką iteracją i debugowaniem w IDE

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Umożliwia pracę nad kodem PySpark lokalnie w swoim edytorze, podczas gdy obliczenia wykonują się na zdalnym klastrze Databricks. Dzięki Databricks Connect v2 i Asset Bundles uzyskasz szybki cykl iteracyjny, debugowanie w VS Code lub PyCharm oraz izolowane testy bez czekania na zdalne notebooki. Idealny do budowania pipeline'ów ETL (bronze → silver → gold) z pełną kontrolą nad strukturą projektu i testami jednostkowymi.

Jak używać

  1. Upewnij się, że masz ukończoną konfigurację databricks-install-auth, Python 3.10+ (zgodny z wersją klastra), działający klaster Databricks (DBR 13.3 LTS lub nowszy) oraz zainstalowany VS Code lub PyCharm.

  2. Utwórz strukturę projektu z katalogami src/ (pipelines, utils), tests/ (unit, integration), notebooks/, resources/ i plikami databricks.yml oraz pyproject.toml w katalogu głównym.

  3. Zainstaluj narzędzia deweloperskie: Databricks CLI, Databricks Connect v2, Asset Bundles oraz zależności z requirements.txt za pomocą pip.

  4. Skonfiguruj Databricks Connect w swoim IDE, wskazując połączenie do klastra i ścieżkę do Asset Bundles — umożliwi to uruchamianie kodu PySpark lokalnie z wykonaniem na zdalnym klastrze.

  5. Napisz testy jednostkowe w tests/unit/ (z Spark fixtures z conftest.py) i testy integracyjne w tests/integration/ — uruchamiaj je lokalnie, aby szybko iterować nad transformacjami bez publikowania na klaster.

  6. Definiuj zasoby zadań (daily_etl.yml) w resources/ i wdrażaj je na Databricks za pomocą Asset Bundles, utrzymując pełną kontrolę nad pipeline'ami bronze, silver i gold.

Podobne skille