D
data-quality-frameworks
Walidacja jakości danych z Great Expectations, testami dbt i kontraktami danych
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia wdrażanie kompleksowych kontroli jakości w potokach danych. Wykorzystaj Great Expectations do automatycznych testów kolumn, dbt do testów jednostkowych i integracyjnych, oraz data contracts do ustalenia umów między zespołami. Obejmuje sześć wymiarów jakości: kompletność, unikalność, ważność, dokładność, spójność i aktualność. Idealny do budowania niezawodnych potoków danych, automatyzacji walidacji w CI/CD i monitorowania metryk jakości.
Jak używać
- Zainstaluj Great Expectations za pomocą pip install great_expectations. 2. Zainicjuj projekt poleceniem great_expectations init, które przygotuje strukturę katalogów i konfiguracji. 3. Utwórz nowe źródło danych (datasource) poleceniem great_expectations datasource new, wskazując bazę danych lub plik, które chcesz monitorować. 4. Zdefiniuj oczekiwania (expectations) dla swoich kolumn, wybierając odpowiednie testy z dostępnych: expect_column_values_to_not_be_null dla kompletności, expect_column_values_to_be_unique dla unikalności, expect_column_values_to_be_in_set dla ważności wartości. 5. Dla bardziej zaawansowanych scenariuszy skonfiguruj testy dbt w swoim projekcie, aby pokryć walidację na poziomie tabel i relacji między tabelami. 6. Zintegruj walidację z potokiem CI/CD, aby automatycznie uruchamiać testy przy każdym wdrożeniu nowych danych lub zmianach schematu.