Toolverse
Wszystkie skille

torchforge-rl-training

autor: davila7

Trenuj modele RL w PyTorch bez zawiłości infrastruktury — fokus na algorytmy, nie na skalowanie.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
1

O skillu

torchforge to biblioteka Meta do wzmacniającego uczenia się (RL) napisana natywnie w PyTorch. Oddziela problemy infrastruktury od logiki algorytmów, dzięki czemu możesz szybko eksperymentować z nowymi metodami RL — GRPO, DAPO, SAPO — bez konfigurowania rozproszonego treningu. Skaluje się automatycznie od jednej karty GPU do tysięcy dzięki systemowi aktorów Monarch i integracji z TorchTitan.

Jak używać

  1. Zainstaluj zależności: upewnij się, że masz PyTorch ≥2.9.0, TorchTitan ≥0.2.0, vLLM i Monarch dostępne w swoim środowisku. 2. Zdefiniuj swoją funkcję straty i model nagrody — torchforge dostarcza wbudowane implementacje GRPO, DAPO, CISPO, GSPO i SAPO, które możesz użyć bezpośrednio lub dostosować. 3. Napisz kod algorytmu w warstwie aplikacji (Your Code) — torchforge obsługuje infrastrukturę, ty skupiasz się na logice RL. Algorytm może być zaimplementowany w około 100 linii kodu. 4. Skonfiguruj skalowanie: jeśli trenujesz na jednej karcie, uruchom bezpośrednio; dla wielu GPU użyj Monarch do automatycznego zarządzania aktorami i TorchTitan do paralelizmu modelu. 5. Monitoruj trening — torchforge automatycznie synchronizuje wagi między węzłami za pośrednictwem TorchStore, a vLLM obsługuje wnioskowanie. Nie musisz ręcznie zarządzać komunikacją między procesami.

Podobne skille