data-transform
Czyszczenie i transformacja danych z pandas i numpy — działa z każdym dostawcą LLM
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do kompleksowej transformacji danych: czyszczenia, normalizacji, zmiany formatu i inżynierii cech. Używa standardowych bibliotek Pythona (pandas, numpy, sklearn) i wykonuje się lokalnie w Twoim środowisku, bez zależności od konkretnego dostawcy LLM. Obsługuje usuwanie duplikatów, obsługę brakujących wartości, skalowanie cech, kodowanie kategorii, łączenie zbiorów danych i wiele innych operacji przygotowawczych.
Jak używać
Zainstaluj wymagane biblioteki: pandas, numpy i scikit-learn. Możesz to zrobić za pomocą pip install pandas numpy scikit-learn.
Załaduj swoje dane do ramki danych pandas za pomocą pd.read_csv() lub innej odpowiedniej metody wczytywania (Excel, JSON, SQL itp.).
Sprawdź jakość danych: wyświetl liczbę brakujących wartości za pomocą df.isnull().sum(), zidentyfikuj duplikaty i anomalie. To pomoże Ci zdecydować, które kroki czyszczenia są potrzebne.
Wyczyść dane poprzez usunięcie duplikatów (drop_duplicates()), obsługę brakujących wartości (fillna() lub dropna()) oraz usunięcie wartości odstających metodą IQR lub inną wybraną techniką.
Normalizuj lub skaluj cechy numeryczne za pomocą StandardScaler, MinMaxScaler lub RobustScaler z sklearn, w zależności od charakteru Twoich danych i algorytmu, który zamierzasz zastosować.
Przekształć dane kategoryczne: użyj LabelEncoder do kodowania porządkowego lub OneHotEncoder do kodowania nominalnego. Zmień format danych między formatem szerokim (wide) a długim (long) za pomocą pivot() lub melt() jeśli jest to konieczne.