openrlhf-training
Trenuj duże modele AI 2× szybciej dzięki rozproszonej architekturze Ray i przyspieszeniu vLLM.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
OpenRLHF to framework do zaawansowanego treningu RLHF (Reinforcement Learning from Human Feedback) zoptymalizowany dla modeli o rozmiarze 7B–70B+. Wykorzystuje Ray do zarządzania zasobami GPU, vLLM do przyspieszenia inferencji oraz ZeRO-3 do efektywnego rozproszenia obliczeń. Obsługuje algorytmy PPO, GRPO, RLOO i DPO. Architektura rozproszona i współdzielenie zasobów GPU sprawiają, że jest 2× szybszy niż DeepSpeedChat.
Jak używać
Przygotuj środowisko Docker z obsługą NVIDIA, uruchamiając obraz PyTorch 25.02 z GPU. Zamontuj katalog roboczy jako wolumin, aby mieć dostęp do plików treningowych.
Zainstaluj OpenRLHF i jego zależności (Ray, vLLM, PyTorch, Transformers, DeepSpeed) poleceniem pip install openrlhf[vllm]. Przed instalacją odinstaluj pakiety konfliktujące: xgboost, transformer_engine, flash_attn i pynvml.
Uruchom klaster Ray na maszynie głównej, wskazując liczbę dostępnych GPU (np. 8 GPU) poleceniem ray start --head --node-ip-address 0.0.0.0 --num-gpus 8.
Skonfiguruj trening PPO, definiując liczbę węzłów i GPU dla każdego komponentu (model referencyjny, reward model, krytyk, aktor) oraz parametry vLLM takie jak liczba silników inferencji i rozmiar batch'a.
Wyślij zadanie treningowe do klastra Ray poleceniem ray job submit, podając ścieżkę do skryptu train_ppo_ray, model wstępnie wytrenowany (np. Llama-3-8b-sft-mixture) oraz parametry optymalizacji (learning rate, liczba epok, max_len dla promptów i generacji).
Monitoruj postęp treningu i zapisz wytrenowany model w wskazanym katalogu wyjściowym (np. ./output/llama3-8b-rlhf).
Podobne skille
solidity-security
autor: wshobson
youtube-watcher
autor: openclaw
ui-audit
autor: openclaw
reverse-engineering-tools
autor: gmh5225
better-auth-best-practices
autor: novuhq
1password
autor: openclaw