Toolverse
Wszystkie skille

tts-audio-mastering

autor: benchflow-ai

Profesjonalne mastering audio dla syntezy mowy — czystość, normalizacja głośności, synchronizacja.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Mobile
Wyświetlenia
1

O skillu

Umiejętność do obróbki audio generowanego przez silniki TTS (text-to-speech). Zawiera praktyczne kroki czyszczenia sygnału, normalizacji głośności według standardu ITU-R BS.1770, wyrównania segmentów oraz przygotowania plików do dostarczenia. Idealna dla projektów wideo z dubbingiem, gdzie audio musi być spójne, wolne od artefaktów i gotowe do publikacji.

Jak używać

  1. Wybierz silnik TTS odpowiedni do Twoich potrzeb: silniki neuronowe offline (np. Kokoro) dla stabilności i niezależności sieciowej, usługi chmurowe (np. Edge-TTS, OpenAI TTS) dla wyższej naturalności, lub formantowe (np. espeak-ng) do prototypowania. Zawsze sprawdź natywną częstotliwość próbkowania wygenerowanego audio przed konwersją do formatu wideo.

  2. Zastosuj czyszczenie mowy dla każdego segmentu: usuń szumy niskich częstotliwości filtrem górnoprzepustowym na ~20 Hz, opcjonalnie zmniejsz ostre brzmienia filtrem dolnoprzepustowym na ~16 kHz, a na granicach segmentów dodaj krótkie zanikanie (fade-in i fade-out ~50 ms). Utrzymuj spójne ustawienia filtrów dla wszystkich segmentów.

  3. Zmierz głośność wygenerowanego audio za pomocą narzędzia ebur128 w FFmpeg lub równoważnego miernika, aby uzyskać wartości zgodne ze standardem ITU-R BS.1770: zintegrowana głośność -23 LUFS, szczytowa wartość rzeczywista około -1,5 dBTP, opcjonalnie LRA około 11.

  4. Zastosuj normalizację głośności (np. filtr loudnorm w FFmpeg) jako ostatni krok po czyszczeniu i edycji czasowej. Jeśli zmienisz tempo lub czas trwania segmentu po normalizacji, powtórz normalizację ponownie.

  5. Dopasuj każdy segment audio do jego docelowego okna czasowego w projekcie wideo, zwracając uwagę na granice segmentów, aby uniknąć przerw lub nakładania się. Upewnij się, że wszystkie segmenty są wyrównane do wspólnej częstotliwości próbkowania i formatu przed eksportem.

  6. Wyeksportuj ostateczne audio w formacie zgodnym z wymaganiami dostarczenia (np. WAV, MP3 lub format wideo), zachowując ustawienia głośności i czystości uzyskane w poprzednich krokach.

Podobne skille