data-cleaning-pipeline
Automatyzuj czyszczenie danych: brakujące wartości, anomalie, standaryzacja
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do budowania solidnych procesów czyszczenia danych. Obsługuje imputację brakujących wartości, detekcję i usuwanie anomalii, standaryzację typów danych, usuwanie duplikatów, normalizację oraz czyszczenie tekstu. Zawiera strategie usuwania, imputacji, transformacji i walidacji danych. Implementacja w Pythonie z użyciem pandas, numpy i scikit-learn. Przekształca surowe, nieporządne dane w czysty format gotowy do analizy i modelowania.
Jak używać
Zainstaluj wymagane biblioteki: pandas, numpy oraz scikit-learn (SimpleImputer, KNNImputer, StandardScaler, MinMaxScaler).
Wczytaj swoje dane surowe za pomocą pandas.read_csv() lub innego źródła danych.
Zidentyfikuj brakujące wartości używając df.isnull().sum() i wybierz strategię obsługi: usuń wiersze dla kolumn krytycznych (dropna), imputuj wartości numeryczne medianą (SimpleImputer), zastosuj imputację KNN dla powiązanych cech lub wypełnij kategorie modą.
Obsługuj anomalie i duplikaty: zidentyfikuj wartości odstające oraz zduplikowane wiersze, następnie usuń lub transformuj je zgodnie z wymaganiami projektu.
Standaryzuj typy danych i zakresy wartości: upewnij się, że kolumny mają prawidłowe typy (numeryczne, kategorialne, tekstowe), a następnie normalizuj zakresy za pomocą StandardScaler lub MinMaxScaler.
Waliduj czystość danych poprzez sprawdzenie reguł integralności i upewnienie się, że dane są gotowe do analizy lub modelowania.