hugging-face-model-trainer

Name: hugging-face-model-trainer
Author: patchy631

autor: patchy631

Trenuj modele językowe na GPU w chmurze Hugging Face bez lokalnej infrastruktury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: patchy631
Kategoria: Bezpieczeństwo
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Umiejętność do trenowania i dostrajania modeli językowych za pomocą TRL (Transformer Reinforcement Learning) na infrastrukturze Hugging Face Jobs. Obsługuje metody SFT, DPO, GRPO i reward modeling, a także konwersję GGUF do lokalnego wdrażania. Zarządzaj przygotowaniem danych, wyborem sprzętu, szacowaniem kosztów i monitorowaniem treningu bez konieczności posiadania własnego GPU.

Jak używać

Zainstaluj umiejętność w swoim agencie lub Claude'a poprzez dodanie referencji do hugging-face-model-trainer z repozytorium ai-engineering-hub.
Przygotuj swój zbiór danych w formacie obsługiwanym przez TRL (np. instrukcje dla SFT, preferencje dla DPO). Zweryfikuj strukturę danych i upewnij się, że zawierają one wymagane pola (tekst, instrukcja, odpowiedź lub preferencje).
Wybierz metodę treningu odpowiednią do Twoich potrzeb: SFT do standardowego dostrajania instrukcji, DPO do wyrównania modelu na podstawie danych preferencji, GRPO do treningu online RL, lub Reward Modeling do trenowania modeli nagród dla RLHF.
Skonfiguruj skrypt treningowy używając pakietu TRL Jobs z formatem UV i PEP 723. Określ model bazowy, parametry treningu, typ sprzętu GPU i szacunkowy budżet kosztów.
Uwierzytelnij się na Hugging Face Hub i skonfiguruj monitorowanie za pomocą Trackio, aby śledzić postęp treningu w czasie rzeczywistym.
Po zakończeniu treningu model zostanie automatycznie zapisany na Hugging Face Hub. Jeśli chcesz używać modelu lokalnie, przekonwertuj go do formatu GGUF dla Ollamy, LM Studio lub llama.c.

Podobne skille

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

1password

autor: openclaw

Zarządzaj hasłami i sekretami przez CLI 1Password bezpośrednio z agentów AI

Bezpieczeństwo

1174

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

zendesk

autor: vm0-ai

Zarządzaj biletami i użytkownikami Zendesk przez API – automatyzuj obsługę klienta

Bezpieczeństwo

11100