debug-distributed

Name: debug-distributed
Author: inclusionAI

autor: inclusionAI

Debuguj problemy trenowania rozproszonego w AReaL — zawieszenia, błędy komunikacji i OOM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: inclusionAI
Kategoria: Backend
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Umiejętność diagnostyczna do rozwiązywania problemów w rozproszonym trenowaniu modeli. Pomaga zidentyfikować przyczyny zawieszenia się procesów, niezgodności wyników między węzłami, błędów braku pamięci (OOM) i problemów komunikacyjnych NCCL. Zawiera praktyczne kroki minimalizacji problemu, konfigurację zmiennych środowiskowych do debugowania oraz techniki analizy stosów wywołań dla zawieszonych procesów.

Jak używać

Uruchom umiejętność, gdy napotkasz problemy w trenowaniu rozproszonym — zawieszenia, różne wyniki na węzłach, błędy OOM lub problemy komunikacyjne NCCL. 2. Zastosuj zasadę minimalnej reprodukcji: utwórz najmniejszy skrypt testowy, który odtwarza problem, usuwając niepowiązane komponenty modelu, zmniejszając rozmiary tensorów i redukując liczbę GPU do minimum (np. 2 urządzenia). 3. Włącz szczegółowe logowanie poprzez zmienne środowiskowe: ustaw TORCH_DISTRIBUTED_DEBUG=DETAIL, NCCL_DEBUG=INFO i NCCL_DEBUG_SUBSYS=ALL, aby uzyskać pełne informacje diagnostyczne. 4. Jeśli proces się zawiesza, użyj py-spy do zrzutu stosu wywołań — znajdź identyfikator procesu poleceniem ps aux, a następnie wykonaj py-spy dump --pid [PID] lub py-spy record -o profile.svg --pid [PID] --duration 30 dla analizy wydajności. 5. Sprawdź typowe przyczyny: niezgodne kolektywne operacje (jeden węzeł wywołuje all_reduce, inny nie), błędne grupy procesów, lub konflikty w torch.compile — porównaj kod na wszystkich węzłach, aby upewnić się, że wszystkie procesy wykonują identyczne operacje rozproszone.

Podobne skille

literature-review

autor: K-Dense-AI

Systematyczne przeglądy literatury naukowej z weryfikacją cytacji i formatowaniem PDF

Backend

238507

drizzle

autor: lobehub

Przewodnik schematów Drizzle ORM – definiuj tabele, migracje i modele baz danych

Backend

79340

youtube-transcript

autor: michalparkola

Pobierz transkrypcje z filmów YouTube za pomocą Claude – automatycznie wyodrębnia napisy i transkrypcje.

Backend

53214

video-downloader

autor: ComposioHQ

Pobieraj filmy z YouTube'a i innych platform do offline'owego oglądania i edycji

Backend

50173

travel-planner

autor: ailabs-393

Spersonalizowane plany podróży z itinerariuszami, budżetami i poradami kulturowymi

Backend

4379

find-skills

autor: openstatusHQ

Odkrywaj i instaluj umiejętności agenta dopasowane do Twoich potrzeb

Backend

150111