Toolverse
Wszystkie skille

data-transform

autor: Starlitnightly

Czyszczenie i transformacja danych z pandas i numpy — działa z każdym dostawcą LLM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps

O skillu

Skill do kompleksowej transformacji danych: czyszczenia, normalizacji, zmiany formatu i inżynierii cech. Używa standardowych bibliotek Pythona (pandas, numpy, sklearn) i wykonuje się lokalnie w Twoim środowisku, bez zależności od konkretnego dostawcy LLM. Obsługuje usuwanie duplikatów, obsługę brakujących wartości, skalowanie cech, kodowanie kategorii, łączenie zbiorów danych i wiele innych operacji przygotowawczych.

Jak używać

  1. Zainstaluj wymagane biblioteki: pandas, numpy i scikit-learn. Możesz to zrobić za pomocą pip install pandas numpy scikit-learn.

  2. Załaduj swoje dane do ramki danych pandas za pomocą pd.read_csv() lub innej odpowiedniej metody wczytywania (Excel, JSON, SQL itp.).

  3. Sprawdź jakość danych: wyświetl liczbę brakujących wartości za pomocą df.isnull().sum(), zidentyfikuj duplikaty i anomalie. To pomoże Ci zdecydować, które kroki czyszczenia są potrzebne.

  4. Wyczyść dane poprzez usunięcie duplikatów (drop_duplicates()), obsługę brakujących wartości (fillna() lub dropna()) oraz usunięcie wartości odstających metodą IQR lub inną wybraną techniką.

  5. Normalizuj lub skaluj cechy numeryczne za pomocą StandardScaler, MinMaxScaler lub RobustScaler z sklearn, w zależności od charakteru Twoich danych i algorytmu, który zamierzasz zastosować.

  6. Przekształć dane kategoryczne: użyj LabelEncoder do kodowania porządkowego lub OneHotEncoder do kodowania nominalnego. Zmień format danych między formatem szerokim (wide) a długim (long) za pomocą pivot() lub melt() jeśli jest to konieczne.

Podobne skille