verl-rl-training
Trenuj duże modele językowe z wzmacniającym uczeniem przy użyciu elastycznej infrastruktury
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do szkolenia LLM-ów z reinforcement learning za pomocą verl, biblioteki od ByteDance. Obsługuje algorytmy PPO, GRPO, RLOO i inne dla post-trainingu w skali produkcyjnej. Pozwala zamieniać backendy (FSDP, Megatron-LM, vLLM, SGLang) i pracować z modelami od 0,5B do 671B parametrów. Idealna do RLHF, wieloturowych rolloutów z narzędziami i treningu modeli wizyjno-językowych.
Jak używać
Zainstaluj verl za pomocą pip, wybierając backend: pip install verl[vllm] dla vLLM lub pip install verl[sglang] dla SGLang. Alternatywnie użyj obrazu Docker: docker pull verlai/verl:vllm011.latest dla wdrożenia produkcyjnego.
Przygotuj swój model bazowy (np. Qwen-3, Llama-3.1, DeepSeek, Gemma-2) i dane treningowe zawierające prompty oraz odpowiedzi do oceny.
Wybierz algorytm uczenia wzmacniającego odpowiedni do Twojego celu: PPO dla klasycznego RLHF, GRPO dla szybszego treningu, RLOO lub REINFORCE++ dla innych wariantów, DAPO lub SPIN dla specjalistycznych zastosowań.
Skonfiguruj backend treningowy (FSDP dla rozproszenia, Megatron-LM dla dużych modeli) oraz engine rolloutów (vLLM lub SGLang dla generowania odpowiedzi podczas treningu).
Uruchom trening, dostosowując parametry takie jak liczba kroków, rozmiar batcha i współczynnik uczenia. Verl obsługuje sekwencyjny paralelizm i paralelizm ekspertów dla modeli powyżej 100B parametrów.
Monitoruj postępy treningu i waliduj model na benchmarkach. Jeśli potrzebujesz wieloturowych interakcji z narzędziami, włącz obsługę agentic workflows w konfiguracji rolloutów.
Podobne skille
backend-security-coder
autor: sickn33
software-security
autor: project-codeguard
obsidian
autor: gapmiss
openapi-spec-generation
autor: wshobson
accessibility-compliance
autor: wshobson
content-creator
autor: alirezarezvani