Toolverse
Wszystkie skille

skypilot-multi-cloud-orchestration

autor: davila7

Uruchamiaj zadania ML na wielu chmurach z automatyczną optymalizacją kosztów GPU

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
DevOps

O skillu

SkyPilot to narzędzie do orkiestracji obciążeń ML na wielu dostawcach chmury (AWS, GCP, Azure, Kubernetes i 20+ innych). Automatycznie wybiera najtańszą chmurę i region, wykorzystuje instancje spot z samonaprawą (oszczędzając 3-6x na kosztach) i wspiera rozproszone trenowanie wielowęzłowe. Idealne gdy chcesz uniknąć blokady u jednego dostawcy i zarządzać długotrwałymi zadaniami z tolerancją na błędy.

Jak używać

  1. Zainstaluj SkyPilot wraz z obsługą wybranych chmur: uruchom pip install "skypilot[aws,gcp,azure,kubernetes]", a następnie zweryfikuj dostęp do swoich kont chmurowych poleceniem sky check.

  2. Przygotuj plik konfiguracji YAML opisujący Twoje zadanie ML — określ wymagane zasoby (np. akcelerator GPU), a następnie dodaj skrypt do uruchomienia w sekcji run. Przykład: resources z accelerators T4:1 i run z poleceniami nvidia-smi oraz echo.

  3. Uruchom zadanie poleceniem sky launch -c nazwa_klastra plik.yaml — SkyPilot automatycznie wybierze najtańszą chmurę i region, a następnie uruchomi klaster i Twoje zadanie.

  4. Połącz się z klastrem przez SSH (ssh nazwa_klastra) aby monitorować postęp, przeglądać logi lub debugować zadanie w razie potrzeby.

  5. Po zakończeniu pracy usuń klaster poleceniem sky down nazwa_klastra, aby zatrzymać naliczanie kosztów. SkyPilot zadbał o automatyczne odzyskiwanie w przypadku przerwania instancji spot.

Podobne skille