verl-rl-training

Name: verl-rl-training
Author: davila7

autor: davila7

Trenuj duże modele językowe z wzmacniającym uczeniem przy użyciu elastycznej infrastruktury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 5

Repozytorium GitHub

O skillu

Umiejętność do szkolenia LLM-ów z reinforcement learning za pomocą verl, biblioteki od ByteDance. Obsługuje algorytmy PPO, GRPO, RLOO i inne dla post-trainingu w skali produkcyjnej. Pozwala zamieniać backendy (FSDP, Megatron-LM, vLLM, SGLang) i pracować z modelami od 0,5B do 671B parametrów. Idealna do RLHF, wieloturowych rolloutów z narzędziami i treningu modeli wizyjno-językowych.

Jak używać

Zainstaluj verl za pomocą pip, wybierając backend: pip install verl[vllm] dla vLLM lub pip install verl[sglang] dla SGLang. Alternatywnie użyj obrazu Docker: docker pull verlai/verl:vllm011.latest dla wdrożenia produkcyjnego.
Przygotuj swój model bazowy (np. Qwen-3, Llama-3.1, DeepSeek, Gemma-2) i dane treningowe zawierające prompty oraz odpowiedzi do oceny.
Wybierz algorytm uczenia wzmacniającego odpowiedni do Twojego celu: PPO dla klasycznego RLHF, GRPO dla szybszego treningu, RLOO lub REINFORCE++ dla innych wariantów, DAPO lub SPIN dla specjalistycznych zastosowań.
Skonfiguruj backend treningowy (FSDP dla rozproszenia, Megatron-LM dla dużych modeli) oraz engine rolloutów (vLLM lub SGLang dla generowania odpowiedzi podczas treningu).
Uruchom trening, dostosowując parametry takie jak liczba kroków, rozmiar batcha i współczynnik uczenia. Verl obsługuje sekwencyjny paralelizm i paralelizm ekspertów dla modeli powyżej 100B parametrów.
Monitoruj postępy treningu i waliduj model na benchmarkach. Jeśli potrzebujesz wieloturowych interakcji z narzędziami, włącz obsługę agentic workflows w konfiguracji rolloutów.

Podobne skille

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

content-creator

autor: alirezarezvani

Twórz treści SEO z konsystentnym głosem marki – analizator, optymalizator i szablony w jednym

Bezpieczeństwo

25124