simpo-training
Wyrównaj modele językowe bez modelu referencyjnego – szybciej i lepiej niż DPO
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
SimPO to metoda optymalizacji preferencji dla modeli językowych, która nie wymaga modelu referencyjnego i osiąga lepsze wyniki niż DPO (+6,4 punktu na AlpacaEval 2.0). Trenujesz modele na podstawie preferencji użytkowników szybciej i efektywniej, bez dodatkowych obciążeń obliczeniowych. Idealna do wyrównywania zachowania modeli, gdy chcesz prostsze i szybsze trenowanie niż tradycyjne podejścia DPO czy PPO.
Jak używać
Przygotuj środowisko: utwórz nowe środowisko Conda z Pythonem 3.10, aktywuj je, a następnie zainstaluj PyTorch 2.2.2 ze strony pytorch.org/get-started/locally/ wybierając swoją konfigurację sprzętu.
Sklonuj repozytorium alignment-handbook z GitHuba, przejdź do katalogu i zainstaluj pakiet za pomocą pip install.
Zainstaluj Flash Attention 2, które przyspiesza trenowanie: uruchom pip install flash-attn --no-build-isolation.
Przygotuj plik konfiguracji trenowania (np. mistral-7b-base-simpo.yaml) – określ model bazowy (np. Mistral 7B), dataset (np. HuggingFaceH4/ultrafeedback_binarized), oraz hiperparametry SimPO takie jak beta (2.0–10.0 dla skalowania nagród) i gamma_beta_ratio (0–1 dla marginesu docelowego).
Uruchom trenowanie za pomocą accelerate launch z plikiem konfiguracji deepspeed_zero3.yaml oraz skryptem run_simpo.py, przekazując ścieżkę do pliku konfiguracji trenowania.
Monitoruj postęp trenowania poprzez logi accelerate – model będzie optymalizowany na podstawie preferencji z datasetu bez potrzeby osobnego modelu referencyjnego.
Podobne skille
ui-audit
autor: openclaw
youtube-watcher
autor: openclaw
brand-voice
autor: anthropics
reviewing-code
autor: CaptainCrouton89
software-security
autor: project-codeguard
backend-security-coder
autor: sickn33