Toolverse
Wszystkie skille

vastai-core-workflow-b

autor: jeremylongshore

Zarządzaj wieloma instancjami GPU na Vast.ai z automatycznym odzyskiwaniem i optymalizacją kosztów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Backend
Wyświetlenia
14

O skillu

Skill do Claude/Codex umożliwiający zaawansowaną orkiestrację klastrów GPU na platformie Vast.ai. Automatycznie aprowizuje wiele instancji do treningu rozproszonego, implementuje odzyskiwanie z przerwań spot instances poprzez checkpointy, oraz analizuje wydatki aby zmniejszyć koszt na zadanie. Idealny dla zespołów trenujących duże modele na wielu GPU jednocześnie.

Jak używać

  1. Upewnij się, że masz ukończony podstawowy workflow Vast.ai (vastai-core-workflow-a) i zainstalowany CLI vastai na swoim systemie. Skill wymaga dostępu do poleceń vastai oraz curl.

  2. Przygotuj pipeline treningowy oparty na checkpointach (np. PyTorch DDP lub DeepSpeed), aby umożliwić wznowienie treningu po przerwaniu instancji spot.

  3. Wyzwól skill frazami takimi jak "vastai distributed training", "vastai spot recovery", "vastai multi-gpu" lub "vastai cost optimization" w zależności od potrzeby.

  4. Skill automatycznie wyszuka dostępne oferty GPU na Vast.ai spełniające Twoje kryteria (typ GPU, VRAM, niezawodność), a następnie aprowizuje wiele instancji równolegle.

  5. Monitoruj status instancji i checkpointy treningowe. Skill obsługuje automatyczne wznowienie z ostatniego checkpointu w przypadku przerwania spot instance.

  6. Po zakończeniu treningu skill analizuje raport wydatków i sugeruje optymalizacje kosztów dla przyszłych zadań, takie jak zmiana typu GPU lub czasu rezerwacji.

Podobne skille