Toolverse
Wszystkie skille

voice-agent

autor: openclaw

Rozmawiaj z agentem AI przez mikrofon — transkrypcja i synteza mowy w lokalnym API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
10

O skillu

Umożliwia agentom AI komunikację głosową bez konieczności hostowania w chmurze. Skill wykorzystuje lokalny Whisper do zamiany mowy na tekst oraz AWS Polly do generowania odpowiedzi audio. Obsługuje pliki audio jako wejście i zwraca odpowiedzi w formacie dźwiękowym, idealne dla aplikacji wymagających naturalnej interakcji głosowej. Wymaga uruchomionego backendu API na porcie 8000.

Jak używać

  1. Upewnij się, że masz uruchomiony backend API na adresie http://localhost:8000. Instrukcje konfiguracji backendu znajdziesz w pliku README.md, walkthrough.md lub DOCKER_README.md w repozytorium projektu.

  2. Zainstaluj skill voice-agent w swoim środowisku agenta. Skill jest klientem i nie wymaga uruchamiania dodatkowych kontenerów — komunikuje się z istniejącym API.

  3. Aby transkrybować plik audio, użyj polecenia transcribe z ścieżką do pliku: python3 {baseDir}/scripts/client.py transcribe "/ścieżka/do/pliku.ogg". Whisper przetworzy audio na tekst.

  4. Agent przetwarza transkrypcję i przygotowuje odpowiedź tekstową. Nie wysyłaj tej odpowiedzi użytkownikowi — przejdź do następnego kroku.

  5. Aby wygenerować audio z odpowiedzi, użyj polecenia synthesize: python3 {baseDir}/scripts/client.py synthesize "Tekst do wymówienia" --output "/ścieżka/do/wyjścia.mp3". AWS Polly utworzy plik audio.

  6. Wyślij wygenerowany plik audio użytkownikowi. Nie dodawaj żadnego tekstu wyjaśniającego — audio jest kompletną odpowiedzią. Jeśli API nie odpowiada, sprawdź status backendu za pomocą polecenia health i upewnij się, że serwer działa prawidłowo.

Podobne skille