inworld-tts
Zamień tekst na mowę za pomocą API Inworld.ai – wybieraj spośród wielu głosów i dostosowuj tempo.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do syntezy mowy z tekstu korzystający z API Inworld.ai. Generuj pliki audio MP3 z dowolnego tekstu, wybierając spośród różnych głosów i dostosowując prędkość mówienia. Obsługuje streaming dla długich tekstów (powyżej 4000 znaków), kontrolę temperatury głosu oraz zmianę tempa od 0,5 do 2,0. Idealne do tworzenia odpowiedzi głosowych, audiobooków lub konwersji dokumentów na format audio. Wymaga klucza API z platformy Inworld.ai i podstawowych narzędzi systemowych (curl, jq, base64).
Jak używać
Przejdź na https://platform.inworld.ai i utwórz nowy klucz API z uprawnieniami "Voices: Read". Skopiuj wygenerowany klucz w formacie Base64.
Ustaw zmienną środowiskową INWORLD_API_KEY, dodając do pliku ~/.bashrc lub ~/.clawdbot/.env linię: export INWORLD_API_KEY="twój-klucz-base64". Załaduj zmienne poleceniem source ~/.bashrc.
Skopiuj folder inworld-tts do katalogu ze swoimi skillami, a następnie nadaj uprawnienia wykonywania skryptowi: chmod +x /ścieżka/do/inworld-tts/scripts/tts.sh. Opcjonalnie utwórz dowiązanie symboliczne w /usr/local/bin dla globalnego dostępu.
Uruchom skill z tekstem i nazwą pliku wyjściowego: ./scripts/tts.sh "Twój tekst" output.mp3. Domyślnie używany jest głos Dennis z normalnym tempem (1.0).
Aby dostosować głos lub tempo, dodaj flagi: ./scripts/tts.sh "Tekst" output.mp3 --voice Dennis --rate 1.2. Tempo można ustawiać od 0.5 do 2.0, a temperaturę od 0.1 do 2.0.
Dla tekstów dłuższych niż 4000 znaków użyj flagi --stream: ./scripts/tts.sh "Bardzo długi tekst..." output.mp3 --stream. Wygenerowany plik audio odtwórz dowolnym odtwarzaczem, np. mpv output.mp3.