fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: davila7

autor: davila7

Dostrajaj modele językowe metodami reinforcement learning – SFT, DPO, PPO i GRPO

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Skill do dostrajania dużych modeli językowych przy użyciu biblioteki TRL i reinforcement learning. Obsługuje nadzorowane dostrajanie (SFT) do nauki instrukcji, wyrównanie preferencji (DPO), optymalizację nagród (PPO/GRPO) oraz trening modeli nagród. Idealne gdy potrzebujesz RLHF, chcesz wyrównać model z preferencjami użytkowników lub trenować na podstawie ludzkiego feedbacku. Współpracuje z HuggingFace Transformers.

Jak używać

Zainstaluj wymagane pakiety: pip install trl transformers datasets peft accelerate. 2. Przygotuj swoje dane treningowe – dla SFT potrzebujesz par prompt-completion, dla DPO par chosen/rejected. 3. Załaduj model bazowy, np. Qwen/Qwen2.5-0.5B, używając AutoModelForCausalLM z biblioteki transformers. 4. Dla nadzorowanego dostrajania (SFT) utwórz SFTTrainer, przekaż model, dataset i uruchom trainer.train(). 5. Jeśli chcesz wyrównać model z preferencjami, użyj DPOTrainer z DPOConfig, ustaw preference_dataset z parami chosen/rejected i trenuj. 6. Po dostrojeniu ewaluuj model na testowych danych, aby sprawdzić jakość wyrównania z ludzkimi preferencjami.

Podobne skille

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

python-expert

autor: Shubhamsaboo

Ekspert Pythona – czysty kod, optymalizacja i best practices

Bezpieczeństwo

2777

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574