umap-learn
Zmniejsz wymiarowość danych i wizualizuj złożone struktury w 2D/3D za pomocą szybkiego algorytmu UMAP.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
UMAP to technika redukcji wymiarowości, która przekształca wysokowymiarowe dane w wizualizacje 2D lub 3D, zachowując zarówno strukturę lokalną, jak i globalną. Narzędzie pracuje szybko i skaluje się do dużych zbiorów danych, a jednocześnie oferuje tryb nadzorowany i parametryczny dla zaawansowanych zastosowań. Idealnie nadaje się do przygotowania danych do klastrowania (np. z HDBSCAN), eksploracji zbiorów danych oraz jako zamiennik dla t-SNE czy PCA w przepływach pracy opartych na scikit-learn.
Jak używać
Zainstaluj pakiet UMAP za pomocą menedżera pakietów: uv pip install umap-learn. Upewnij się, że masz dostęp do bibliotek NumPy, scikit-learn i Matplotlib do pełnego wykorzystania narzędzia.
Przygotuj swoje dane poprzez standaryzację cech. Załaduj dane surowe i zastosuj StandardScaler z scikit-learn, aby sprowadzić wszystkie wymiary do porównywalnych skal — jest to krok krytyczny dla prawidłowego działania UMAP.
Utwórz instancję UMAP z wybranymi parametrami: n_neighbors (domyślnie 15) kontroluje równowagę między strukturą lokalną a globalną, min_dist (domyślnie 0.1) określa minimalną odległość między punktami w osadzeniu, n_components (domyślnie 2) to liczba wymiarów wyjściowych, a metric (domyślnie 'euclidean') definiuje metrykę odległości.
Dopasuj model do danych standaryzowanych za pomocą metody fit_transform(), która jednocześnie uczy model i zwraca osadzenie. Alternatywnie użyj osobno fit() i access embedding_ do ponownego wykorzystania wytrenowanego modelu na nowych danych.
Zwizualizuj wynik za pomocą matplotlib.pyplot.scatter(), przekazując pierwsze dwie kolumny osadzenia jako współrzędne x i y. Dodaj parametr c z etykietami lub wartościami, aby kolorować punkty i ujawnić strukturę klastrów.
Eksperymentuj z parametrami n_neighbors i min_dist, aby dostroić równowagę między szczegółami lokalnymi a globalnym kształtem danych — mniejsze n_neighbors podkreśla strukturę lokalną, a większe wartości min_dist zwiększają rozdzielenie między klastrami.