Toolverse
Wszystkie skille

data-cleaning-pipeline

autor: aj-geddes

Automatyzuj czyszczenie danych: brakujące wartości, anomalie, standaryzacja

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps
Wyświetlenia
102

O skillu

Skill do budowania solidnych procesów czyszczenia danych. Obsługuje imputację brakujących wartości, detekcję i usuwanie anomalii, standaryzację typów danych, usuwanie duplikatów, normalizację oraz czyszczenie tekstu. Zawiera strategie usuwania, imputacji, transformacji i walidacji danych. Implementacja w Pythonie z użyciem pandas, numpy i scikit-learn. Przekształca surowe, nieporządne dane w czysty format gotowy do analizy i modelowania.

Jak używać

  1. Zainstaluj wymagane biblioteki: pandas, numpy oraz scikit-learn (SimpleImputer, KNNImputer, StandardScaler, MinMaxScaler).

  2. Wczytaj swoje dane surowe za pomocą pandas.read_csv() lub innego źródła danych.

  3. Zidentyfikuj brakujące wartości używając df.isnull().sum() i wybierz strategię obsługi: usuń wiersze dla kolumn krytycznych (dropna), imputuj wartości numeryczne medianą (SimpleImputer), zastosuj imputację KNN dla powiązanych cech lub wypełnij kategorie modą.

  4. Obsługuj anomalie i duplikaty: zidentyfikuj wartości odstające oraz zduplikowane wiersze, następnie usuń lub transformuj je zgodnie z wymaganiami projektu.

  5. Standaryzuj typy danych i zakresy wartości: upewnij się, że kolumny mają prawidłowe typy (numeryczne, kategorialne, tekstowe), a następnie normalizuj zakresy za pomocą StandardScaler lub MinMaxScaler.

  6. Waliduj czystość danych poprzez sprawdzenie reguł integralności i upewnienie się, że dane są gotowe do analizy lub modelowania.

Podobne skille