vastai-core-workflow-b
Zarządzaj wieloma instancjami GPU na Vast.ai z automatycznym odzyskiwaniem i optymalizacją kosztów
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do Claude/Codex umożliwiający zaawansowaną orkiestrację klastrów GPU na platformie Vast.ai. Automatycznie aprowizuje wiele instancji do treningu rozproszonego, implementuje odzyskiwanie z przerwań spot instances poprzez checkpointy, oraz analizuje wydatki aby zmniejszyć koszt na zadanie. Idealny dla zespołów trenujących duże modele na wielu GPU jednocześnie.
Jak używać
Upewnij się, że masz ukończony podstawowy workflow Vast.ai (vastai-core-workflow-a) i zainstalowany CLI vastai na swoim systemie. Skill wymaga dostępu do poleceń vastai oraz curl.
Przygotuj pipeline treningowy oparty na checkpointach (np. PyTorch DDP lub DeepSpeed), aby umożliwić wznowienie treningu po przerwaniu instancji spot.
Wyzwól skill frazami takimi jak "vastai distributed training", "vastai spot recovery", "vastai multi-gpu" lub "vastai cost optimization" w zależności od potrzeby.
Skill automatycznie wyszuka dostępne oferty GPU na Vast.ai spełniające Twoje kryteria (typ GPU, VRAM, niezawodność), a następnie aprowizuje wiele instancji równolegle.
Monitoruj status instancji i checkpointy treningowe. Skill obsługuje automatyczne wznowienie z ostatniego checkpointu w przypadku przerwania spot instance.
Po zakończeniu treningu skill analizuje raport wydatków i sugeruje optymalizacje kosztów dla przyszłych zadań, takie jak zmiana typu GPU lub czasu rezerwacji.