Toolverse
Wszystkie skille

book-sft-pipeline

autor: muratcankoylan

Konwertuj książki na zestawy treningowe i trenuj modele naśladujące styl pisarza

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps
Wyświetlenia
17

O skillu

Umiejętność do budowania pełnych pipeline'ów fine-tuningu na podstawie książek. Wyodrębniaj tekst z plików ePub, dziel go na semantycznie spójne fragmenty, generuj zróżnicowane instrukcje treningowe i trenuj małe modele (8B lub mniej) do naśladowania głosu konkretnego autora. System automatycznie zarządza segmentacją tekstu, zapobiegając fragmentarycznym wynikom, oraz używa 15+ szablonów promptów, aby model uczył się stylu, a nie memoryzował treść.

Jak używać

  1. Przygotuj plik ePub z książką, którą chcesz wykorzystać do treningu. Upewnij się, że plik jest dostępny w formacie ePub i zawiera tekst, który chcesz analizować.

  2. Aktywuj umiejętność, gdy chcesz wykonać jedno z następujących zadań: wyodrębnić tekst z książki, stworzyć zestaw danych SFT, trenować model naśladujący styl autora, przeprowadzić segmentację tekstu lub przygotować dane do treningu LoRA.

  3. Pozwól orchestratorowi zarządzać fazami pipeline'u. System automatycznie wyodrębni tekst z ePuba, podzieli go na fragmenty o długości 150–400 słów na naturalnych granicach (koniec akapitu, zdania), aby uniknąć fragmentarycznych wyników.

  4. Zezwól na generowanie instrukcji treningowych. Pipeline użyje co najmniej 15 różnych szablonów promptów i 5 wariantów system promptów, aby zapobiec memoryzacji i nauczyć model autentycznego stylu pisarskiego.

  5. Przygotuj dane do treningu na platformach takich jak Tinker. Wygenerowany zestaw danych będzie zawierać pary instrukcja–odpowiedź, gdzie odpowiedzi odzwierciedlają styl autora bez dosłownego cytowania tekstu.

  6. Uruchom trening małego modelu (8B parametrów lub mniej) na przygotowanym zestawie. Model nauczy się rytmu, słownictwa i charakterystycznych wzorców pisarskich, umożliwiając generowanie tekstu w głosie wybranego autora.

Podobne skille