Toolverse
Wszystkie skille

splitting-datasets

autor: jeremylongshore

Automatycznie dziel zbiory danych na zestawy treningowe, walidacyjne i testowe dla modeli ML.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Ta umiejętność pozwala Claude'owi podzielić zbiór danych na podzbiory potrzebne do trenowania i ewaluacji modeli uczenia maszynowego. Automatycznie generuje kod Python, który dzieli dane w określonych proporcjach — na przykład 70% treningowe, 15% walidacyjne i 15% testowe. Przydatna podczas przygotowywania danych do pracy z modelami ML, gdy potrzebujesz szybko utworzyć train-test splity lub podzielić dane na wiele zestawów.

Jak używać

  1. Aktywuj umiejętność, prosząc Claude'a o podział zbioru danych. Użyj słów kluczowych takich jak "podziel dataset", "train-test split", "validation set" lub "data partitioning", aby system automatycznie rozpoznał żądanie.

  2. Określ plik źródłowy i proporcje podziału. Na przykład: "Podziel dane z 'my_data.csv' na 70% treningowe, 15% walidacyjne i 15% testowe" lub "Utwórz train-test split z 'large_dataset.csv' w stosunku 80/20".

  3. Claude wygeneruje kod Python wykorzystujący standardowe biblioteki do uczenia maszynowego (np. scikit-learn). Kod będzie dostosowany do Twoich wymagań i proporcji.

  4. Umiejętność automatycznie wykonuje wygenerowany kod, dzieląc zbiór danych zgodnie z podanymi parametrami.

  5. Wynikiem są nowe pliki CSV zawierające podzielone zestawy — na przykład 'train.csv', 'validation.csv' i 'test.csv' — gotowe do użycia w trenowaniu modelu.

  6. Możesz następnie załadować te pliki do swojego pipeline'u uczenia maszynowego i przystąpić do trenowania i ewaluacji modelu.

Podobne skille