splitting-datasets
Automatycznie dziel zbiory danych na zestawy treningowe, walidacyjne i testowe dla modeli ML.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Ta umiejętność pozwala Claude'owi podzielić zbiór danych na podzbiory potrzebne do trenowania i ewaluacji modeli uczenia maszynowego. Automatycznie generuje kod Python, który dzieli dane w określonych proporcjach — na przykład 70% treningowe, 15% walidacyjne i 15% testowe. Przydatna podczas przygotowywania danych do pracy z modelami ML, gdy potrzebujesz szybko utworzyć train-test splity lub podzielić dane na wiele zestawów.
Jak używać
Aktywuj umiejętność, prosząc Claude'a o podział zbioru danych. Użyj słów kluczowych takich jak "podziel dataset", "train-test split", "validation set" lub "data partitioning", aby system automatycznie rozpoznał żądanie.
Określ plik źródłowy i proporcje podziału. Na przykład: "Podziel dane z 'my_data.csv' na 70% treningowe, 15% walidacyjne i 15% testowe" lub "Utwórz train-test split z 'large_dataset.csv' w stosunku 80/20".
Claude wygeneruje kod Python wykorzystujący standardowe biblioteki do uczenia maszynowego (np. scikit-learn). Kod będzie dostosowany do Twoich wymagań i proporcji.
Umiejętność automatycznie wykonuje wygenerowany kod, dzieląc zbiór danych zgodnie z podanymi parametrami.
Wynikiem są nowe pliki CSV zawierające podzielone zestawy — na przykład 'train.csv', 'validation.csv' i 'test.csv' — gotowe do użycia w trenowaniu modelu.
Możesz następnie załadować te pliki do swojego pipeline'u uczenia maszynowego i przystąpić do trenowania i ewaluacji modelu.