simpo-training

Name: simpo-training
Author: davila7

autor: davila7

Wyrównaj modele językowe bez modelu referencyjnego – szybciej i lepiej niż DPO

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

SimPO to metoda optymalizacji preferencji dla modeli językowych, która nie wymaga modelu referencyjnego i osiąga lepsze wyniki niż DPO (+6,4 punktu na AlpacaEval 2.0). Trenujesz modele na podstawie preferencji użytkowników szybciej i efektywniej, bez dodatkowych obciążeń obliczeniowych. Idealna do wyrównywania zachowania modeli, gdy chcesz prostsze i szybsze trenowanie niż tradycyjne podejścia DPO czy PPO.

Jak używać

Przygotuj środowisko: utwórz nowe środowisko Conda z Pythonem 3.10, aktywuj je, a następnie zainstaluj PyTorch 2.2.2 ze strony pytorch.org/get-started/locally/ wybierając swoją konfigurację sprzętu.
Sklonuj repozytorium alignment-handbook z GitHuba, przejdź do katalogu i zainstaluj pakiet za pomocą pip install.
Zainstaluj Flash Attention 2, które przyspiesza trenowanie: uruchom pip install flash-attn --no-build-isolation.
Przygotuj plik konfiguracji trenowania (np. mistral-7b-base-simpo.yaml) – określ model bazowy (np. Mistral 7B), dataset (np. HuggingFaceH4/ultrafeedback_binarized), oraz hiperparametry SimPO takie jak beta (2.0–10.0 dla skalowania nagród) i gamma_beta_ratio (0–1 dla marginesu docelowego).
Uruchom trenowanie za pomocą accelerate launch z plikiem konfiguracji deepspeed_zero3.yaml oraz skryptem run_simpo.py, przekazując ścieżkę do pliku konfiguracji trenowania.
Monitoruj postęp trenowania poprzez logi accelerate – model będzie optymalizowany na podstawie preferencji z datasetu bez potrzeby osobnego modelu referencyjnego.

Podobne skille

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

reviewing-code

autor: CaptainCrouton89

Systematyczna ocena zmian w kodzie pod kątem bezpieczeństwa, poprawności i zgodności ze specyfikacją

Bezpieczeństwo

1493

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133