openrlhf-training

Name: openrlhf-training
Author: davila7

autor: davila7

Trenuj duże modele AI 2× szybciej dzięki rozproszonej architekturze Ray i przyspieszeniu vLLM.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

OpenRLHF to framework do zaawansowanego treningu RLHF (Reinforcement Learning from Human Feedback) zoptymalizowany dla modeli o rozmiarze 7B–70B+. Wykorzystuje Ray do zarządzania zasobami GPU, vLLM do przyspieszenia inferencji oraz ZeRO-3 do efektywnego rozproszenia obliczeń. Obsługuje algorytmy PPO, GRPO, RLOO i DPO. Architektura rozproszona i współdzielenie zasobów GPU sprawiają, że jest 2× szybszy niż DeepSpeedChat.

Jak używać

Przygotuj środowisko Docker z obsługą NVIDIA, uruchamiając obraz PyTorch 25.02 z GPU. Zamontuj katalog roboczy jako wolumin, aby mieć dostęp do plików treningowych.
Zainstaluj OpenRLHF i jego zależności (Ray, vLLM, PyTorch, Transformers, DeepSpeed) poleceniem pip install openrlhf[vllm]. Przed instalacją odinstaluj pakiety konfliktujące: xgboost, transformer_engine, flash_attn i pynvml.
Uruchom klaster Ray na maszynie głównej, wskazując liczbę dostępnych GPU (np. 8 GPU) poleceniem ray start --head --node-ip-address 0.0.0.0 --num-gpus 8.
Skonfiguruj trening PPO, definiując liczbę węzłów i GPU dla każdego komponentu (model referencyjny, reward model, krytyk, aktor) oraz parametry vLLM takie jak liczba silników inferencji i rozmiar batch'a.
Wyślij zadanie treningowe do klastra Ray poleceniem ray job submit, podając ścieżkę do skryptu train_ppo_ray, model wstępnie wytrenowany (np. Llama-3-8b-sft-mixture) oraz parametry optymalizacji (learning rate, liczba epok, max_len dla promptów i generacji).
Monitoruj postęp treningu i zapisz wytrenowany model w wskazanym katalogu wyjściowym (np. ./output/llama3-8b-rlhf).

Podobne skille

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

reverse-engineering-tools

autor: gmh5225

Przewodnik po narzędziach inżynierii wstecznej dla badań bezpieczeństwa gier

Bezpieczeństwo

3168

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

1password

autor: openclaw

Zarządzaj hasłami i sekretami przez CLI 1Password bezpośrednio z agentów AI

Bezpieczeństwo

1174