voice-agent
Rozmawiaj z agentem AI przez mikrofon — transkrypcja i synteza mowy w lokalnym API
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia agentom AI komunikację głosową bez konieczności hostowania w chmurze. Skill wykorzystuje lokalny Whisper do zamiany mowy na tekst oraz AWS Polly do generowania odpowiedzi audio. Obsługuje pliki audio jako wejście i zwraca odpowiedzi w formacie dźwiękowym, idealne dla aplikacji wymagających naturalnej interakcji głosowej. Wymaga uruchomionego backendu API na porcie 8000.
Jak używać
Upewnij się, że masz uruchomiony backend API na adresie http://localhost:8000. Instrukcje konfiguracji backendu znajdziesz w pliku README.md, walkthrough.md lub DOCKER_README.md w repozytorium projektu.
Zainstaluj skill voice-agent w swoim środowisku agenta. Skill jest klientem i nie wymaga uruchamiania dodatkowych kontenerów — komunikuje się z istniejącym API.
Aby transkrybować plik audio, użyj polecenia transcribe z ścieżką do pliku: python3 {baseDir}/scripts/client.py transcribe "/ścieżka/do/pliku.ogg". Whisper przetworzy audio na tekst.
Agent przetwarza transkrypcję i przygotowuje odpowiedź tekstową. Nie wysyłaj tej odpowiedzi użytkownikowi — przejdź do następnego kroku.
Aby wygenerować audio z odpowiedzi, użyj polecenia synthesize: python3 {baseDir}/scripts/client.py synthesize "Tekst do wymówienia" --output "/ścieżka/do/wyjścia.mp3". AWS Polly utworzy plik audio.
Wyślij wygenerowany plik audio użytkownikowi. Nie dodawaj żadnego tekstu wyjaśniającego — audio jest kompletną odpowiedzią. Jeśli API nie odpowiada, sprawdź status backendu za pomocą polecenia health i upewnij się, że serwer działa prawidłowo.
Podobne skille
security-compliance
autor: davila7
google-analytics
autor: davila7
windows-ui-automation
autor: martinholovsky
feishu-docs
autor: openclaw
academic-researcher
autor: Shubhamsaboo
solidity-security
autor: wshobson