hugging-face-model-trainer
Trenuj modele językowe na GPU w chmurze Hugging Face bez lokalnej infrastruktury
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do trenowania i dostrajania modeli językowych za pomocą TRL (Transformer Reinforcement Learning) na infrastrukturze Hugging Face Jobs. Obsługuje metody SFT, DPO, GRPO i reward modeling, a także konwersję GGUF do lokalnego wdrażania. Zarządzaj przygotowaniem danych, wyborem sprzętu, szacowaniem kosztów i monitorowaniem treningu bez konieczności posiadania własnego GPU.
Jak używać
Zainstaluj umiejętność w swoim agencie lub Claude'a poprzez dodanie referencji do hugging-face-model-trainer z repozytorium ai-engineering-hub.
Przygotuj swój zbiór danych w formacie obsługiwanym przez TRL (np. instrukcje dla SFT, preferencje dla DPO). Zweryfikuj strukturę danych i upewnij się, że zawierają one wymagane pola (tekst, instrukcja, odpowiedź lub preferencje).
Wybierz metodę treningu odpowiednią do Twoich potrzeb: SFT do standardowego dostrajania instrukcji, DPO do wyrównania modelu na podstawie danych preferencji, GRPO do treningu online RL, lub Reward Modeling do trenowania modeli nagród dla RLHF.
Skonfiguruj skrypt treningowy używając pakietu TRL Jobs z formatem UV i PEP 723. Określ model bazowy, parametry treningu, typ sprzętu GPU i szacunkowy budżet kosztów.
Uwierzytelnij się na Hugging Face Hub i skonfiguruj monitorowanie za pomocą Trackio, aby śledzić postęp treningu w czasie rzeczywistym.
Po zakończeniu treningu model zostanie automatycznie zapisany na Hugging Face Hub. Jeśli chcesz używać modelu lokalnie, przekonwertuj go do formatu GGUF dla Ollamy, LM Studio lub llama.c.