Toolverse
Wszystkie skille

vastai-observability

autor: jeremylongshore

Monitoruj wydajność i koszty instancji GPU na Vast.ai w czasie rzeczywistym

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
6

O skillu

Skill do kompleksowego monitorowania integracji Vast.ai — śledź wykorzystanie GPU, temperaturę, koszty operacyjne i dostępność instancji. Automatycznie identyfikuj marnotrawstwo zasobów (bezczynne GPU kosztują 0,20–3,00+ USD/h) i konfiguruj alerty dla zdrowia integracji. Idealne dla zespołów zarządzających zadaniami treningowymi i obliczeniami na GPU.

Jak używać

  1. Upewnij się, że masz aktywne konto Vast.ai z uruchomionymi instancjami GPU oraz zainstalowane narzędzie vastai CLI z uwierzytelnieniem.

  2. Wyzwól skill frazami takimi jak "vastai monitoring", "vastai metrics", "monitor vastai" lub "vastai alerts" w Claude Code.

  3. Skill automatycznie pobierze listę Twoich instancji i wyświetli kluczowe metryki: identyfikator instancji, typ GPU, procent wykorzystania GPU, temperaturę, godzinowy koszt oraz czas działania.

  4. Przeanalizuj raport wykorzystania — zwróć uwagę na instancje z GPU_util poniżej 10%, które wskazują marnotrawstwo zasobów. Skill obliczy straty finansowe dla bezczynnych GPU.

  5. Monitoruj całkowity koszt godzinowy wszystkich uruchomionych instancji — skill sumuje dph_total (koszt za godzinę) dla każdej instancji i mnożyć przez czas działania.

  6. Skonfiguruj alerty dla instancji spot (podatne na przerwanie) i długotrwałych zadań treningowych — skill wspiera zewnętrzne monitorowanie do śledzenia postępu zadań.

Podobne skille