skypilot-multi-cloud-orchestration
Uruchamiaj zadania ML na wielu chmurach z automatyczną optymalizacją kosztów GPU
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
SkyPilot to narzędzie do orkiestracji obciążeń ML na wielu dostawcach chmury (AWS, GCP, Azure, Kubernetes i 20+ innych). Automatycznie wybiera najtańszą chmurę i region, wykorzystuje instancje spot z samonaprawą (oszczędzając 3-6x na kosztach) i wspiera rozproszone trenowanie wielowęzłowe. Idealne gdy chcesz uniknąć blokady u jednego dostawcy i zarządzać długotrwałymi zadaniami z tolerancją na błędy.
Jak używać
Zainstaluj SkyPilot wraz z obsługą wybranych chmur: uruchom pip install "skypilot[aws,gcp,azure,kubernetes]", a następnie zweryfikuj dostęp do swoich kont chmurowych poleceniem sky check.
Przygotuj plik konfiguracji YAML opisujący Twoje zadanie ML — określ wymagane zasoby (np. akcelerator GPU), a następnie dodaj skrypt do uruchomienia w sekcji run. Przykład: resources z accelerators T4:1 i run z poleceniami nvidia-smi oraz echo.
Uruchom zadanie poleceniem sky launch -c nazwa_klastra plik.yaml — SkyPilot automatycznie wybierze najtańszą chmurę i region, a następnie uruchomi klaster i Twoje zadanie.
Połącz się z klastrem przez SSH (ssh nazwa_klastra) aby monitorować postęp, przeglądać logi lub debugować zadanie w razie potrzeby.
Po zakończeniu pracy usuń klaster poleceniem sky down nazwa_klastra, aby zatrzymać naliczanie kosztów. SkyPilot zadbał o automatyczne odzyskiwanie w przypadku przerwania instancji spot.