data-cleaning-pipeline

Name: data-cleaning-pipeline
Author: aj-geddes

autor: aj-geddes

Automatyzuj czyszczenie danych: brakujące wartości, anomalie, standaryzacja

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: aj-geddes
Kategoria: DevOps
Wyświetlenia: 102

Repozytorium GitHub

O skillu

Skill do budowania solidnych procesów czyszczenia danych. Obsługuje imputację brakujących wartości, detekcję i usuwanie anomalii, standaryzację typów danych, usuwanie duplikatów, normalizację oraz czyszczenie tekstu. Zawiera strategie usuwania, imputacji, transformacji i walidacji danych. Implementacja w Pythonie z użyciem pandas, numpy i scikit-learn. Przekształca surowe, nieporządne dane w czysty format gotowy do analizy i modelowania.

Jak używać

Zainstaluj wymagane biblioteki: pandas, numpy oraz scikit-learn (SimpleImputer, KNNImputer, StandardScaler, MinMaxScaler).
Wczytaj swoje dane surowe za pomocą pandas.read_csv() lub innego źródła danych.
Zidentyfikuj brakujące wartości używając df.isnull().sum() i wybierz strategię obsługi: usuń wiersze dla kolumn krytycznych (dropna), imputuj wartości numeryczne medianą (SimpleImputer), zastosuj imputację KNN dla powiązanych cech lub wypełnij kategorie modą.
Obsługuj anomalie i duplikaty: zidentyfikuj wartości odstające oraz zduplikowane wiersze, następnie usuń lub transformuj je zgodnie z wymaganiami projektu.
Standaryzuj typy danych i zakresy wartości: upewnij się, że kolumny mają prawidłowe typy (numeryczne, kategorialne, tekstowe), a następnie normalizuj zakresy za pomocą StandardScaler lub MinMaxScaler.
Waliduj czystość danych poprzez sprawdzenie reguł integralności i upewnienie się, że dane są gotowe do analizy lub modelowania.

Podobne skille

task-master

autor: sfc-gh-dflippo

Zarządzaj złożonymi projektami z AI — automatyczne rozbijanie zadań, śledzenie zależności, specification-driven development

DevOps

14126

resolve-conflicts

autor: antinomyhq

Rozwiąż konflikty merge'a w Git za pomocą strukturalnego planu zamiast ręcznego wyboru.

DevOps

48163

pmbok-project-management

autor: jgtolentino

Kompleksne metodologie zarządzania projektami zgodnie ze standardami PMBOK i PMP

DevOps

21133

file-organizer

autor: ComposioHQ

Inteligentny asystent porządkowania plików — duplikaty, struktura folderów, automatyczne czyszczenie

DevOps

1399

aws-solution-architect

autor: alirezarezvani

Projektuj skalowalne architektury AWS dla startupów z szablonami infrastruktury jako kodu

DevOps

1231

context7

autor: mikha08-rgb

Przeszukuj GitHub w poszukiwaniu rozwiązań, błędów i przykładów kodu dla swoich projektów.

DevOps

51166