Toolverse
Wszystkie skille

verl-rl-training

autor: davila7

Trenuj duże modele językowe z wzmacniającym uczeniem przy użyciu elastycznej infrastruktury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
5

O skillu

Umiejętność do szkolenia LLM-ów z reinforcement learning za pomocą verl, biblioteki od ByteDance. Obsługuje algorytmy PPO, GRPO, RLOO i inne dla post-trainingu w skali produkcyjnej. Pozwala zamieniać backendy (FSDP, Megatron-LM, vLLM, SGLang) i pracować z modelami od 0,5B do 671B parametrów. Idealna do RLHF, wieloturowych rolloutów z narzędziami i treningu modeli wizyjno-językowych.

Jak używać

  1. Zainstaluj verl za pomocą pip, wybierając backend: pip install verl[vllm] dla vLLM lub pip install verl[sglang] dla SGLang. Alternatywnie użyj obrazu Docker: docker pull verlai/verl:vllm011.latest dla wdrożenia produkcyjnego.

  2. Przygotuj swój model bazowy (np. Qwen-3, Llama-3.1, DeepSeek, Gemma-2) i dane treningowe zawierające prompty oraz odpowiedzi do oceny.

  3. Wybierz algorytm uczenia wzmacniającego odpowiedni do Twojego celu: PPO dla klasycznego RLHF, GRPO dla szybszego treningu, RLOO lub REINFORCE++ dla innych wariantów, DAPO lub SPIN dla specjalistycznych zastosowań.

  4. Skonfiguruj backend treningowy (FSDP dla rozproszenia, Megatron-LM dla dużych modeli) oraz engine rolloutów (vLLM lub SGLang dla generowania odpowiedzi podczas treningu).

  5. Uruchom trening, dostosowując parametry takie jak liczba kroków, rozmiar batcha i współczynnik uczenia. Verl obsługuje sekwencyjny paralelizm i paralelizm ekspertów dla modeli powyżej 100B parametrów.

  6. Monitoruj postępy treningu i waliduj model na benchmarkach. Jeśli potrzebujesz wieloturowych interakcji z narzędziami, włącz obsługę agentic workflows w konfiguracji rolloutów.

Podobne skille