ray-train
Trenuj modele AI na setkach maszyn bez zamieszania z konfiguracją klastrów
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Ray Train to narzędzie do rozproszonego trenowania modeli PyTorch, TensorFlow i HuggingFace na wielu maszynach. Skaluje się od jednego GPU na laptopie do tysięcy węzłów w klastrze. Wbudowana strojenie hiperparametrów, tolerancja na błędy i elastyczne skalowanie sprawiają, że trenowanie dużych modeli wymaga minimalnych zmian w kodzie.
Jak używać
Zainstaluj Ray Train za pomocą pip install -U "ray[train]". Upewnij się, że masz zainstalowane PyTorch (torch) i bibliotekę transformers, jeśli planujesz pracę z modelami HuggingFace.
Zdefiniuj funkcję treningową, która zawiera Twoją normalną pętlę treningową PyTorch. Wewnątrz funkcji użyj train.torch.prepare_model() aby przygotować model do pracy rozproszonej — Ray automatycznie obsługuje przydzielanie urządzeń GPU.
W pętli treningowej dodaj train.report() aby raportować metryki takie jak loss czy dokładność. Ray zbiera te metryki automatycznie ze wszystkich węzłów.
Utwórz instancję TorchTrainer, przekazując funkcję treningową i ScalingConfig z liczbą pracowników (num_workers) oraz flagą use_gpu=True jeśli chcesz używać GPU. Na przykład num_workers=4 oznacza trening na 4 GPU.
Uruchom trening wywołując trainer.fit(). Ray obsługuje koordynację rozproszoną, alokację zasobów, checkpointowanie i tolerancję na błędy — Ty skupiasz się tylko na logice treningowej.
Pobierz wyniki z obiektu zwróconego przez fit(), który zawiera finalne metryki i wytrenowany model. Możesz sprawdzić result.metrics aby zobaczyć ostateczne wartości loss i inne metryki.