Toolverse
Wszystkie skille

openrlhf-training

autor: davila7

Trenuj duże modele AI 2× szybciej dzięki rozproszonej architekturze Ray i przyspieszeniu vLLM.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

OpenRLHF to framework do zaawansowanego treningu RLHF (Reinforcement Learning from Human Feedback) zoptymalizowany dla modeli o rozmiarze 7B–70B+. Wykorzystuje Ray do zarządzania zasobami GPU, vLLM do przyspieszenia inferencji oraz ZeRO-3 do efektywnego rozproszenia obliczeń. Obsługuje algorytmy PPO, GRPO, RLOO i DPO. Architektura rozproszona i współdzielenie zasobów GPU sprawiają, że jest 2× szybszy niż DeepSpeedChat.

Jak używać

  1. Przygotuj środowisko Docker z obsługą NVIDIA, uruchamiając obraz PyTorch 25.02 z GPU. Zamontuj katalog roboczy jako wolumin, aby mieć dostęp do plików treningowych.

  2. Zainstaluj OpenRLHF i jego zależności (Ray, vLLM, PyTorch, Transformers, DeepSpeed) poleceniem pip install openrlhf[vllm]. Przed instalacją odinstaluj pakiety konfliktujące: xgboost, transformer_engine, flash_attn i pynvml.

  3. Uruchom klaster Ray na maszynie głównej, wskazując liczbę dostępnych GPU (np. 8 GPU) poleceniem ray start --head --node-ip-address 0.0.0.0 --num-gpus 8.

  4. Skonfiguruj trening PPO, definiując liczbę węzłów i GPU dla każdego komponentu (model referencyjny, reward model, krytyk, aktor) oraz parametry vLLM takie jak liczba silników inferencji i rozmiar batch'a.

  5. Wyślij zadanie treningowe do klastra Ray poleceniem ray job submit, podając ścieżkę do skryptu train_ppo_ray, model wstępnie wytrenowany (np. Llama-3-8b-sft-mixture) oraz parametry optymalizacji (learning rate, liczba epok, max_len dla promptów i generacji).

  6. Monitoruj postęp treningu i zapisz wytrenowany model w wskazanym katalogu wyjściowym (np. ./output/llama3-8b-rlhf).

Podobne skille