voice-agent

Name: voice-agent
Author: openclaw

autor: openclaw

Rozmawiaj z agentem AI przez mikrofon — transkrypcja i synteza mowy w lokalnym API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: openclaw
Kategoria: Bezpieczeństwo
Wyświetlenia: 10

Repozytorium GitHub

O skillu

Umożliwia agentom AI komunikację głosową bez konieczności hostowania w chmurze. Skill wykorzystuje lokalny Whisper do zamiany mowy na tekst oraz AWS Polly do generowania odpowiedzi audio. Obsługuje pliki audio jako wejście i zwraca odpowiedzi w formacie dźwiękowym, idealne dla aplikacji wymagających naturalnej interakcji głosowej. Wymaga uruchomionego backendu API na porcie 8000.

Jak używać

Upewnij się, że masz uruchomiony backend API na adresie http://localhost:8000. Instrukcje konfiguracji backendu znajdziesz w pliku README.md, walkthrough.md lub DOCKER_README.md w repozytorium projektu.
Zainstaluj skill voice-agent w swoim środowisku agenta. Skill jest klientem i nie wymaga uruchamiania dodatkowych kontenerów — komunikuje się z istniejącym API.
Aby transkrybować plik audio, użyj polecenia transcribe z ścieżką do pliku: python3 {baseDir}/scripts/client.py transcribe "/ścieżka/do/pliku.ogg". Whisper przetworzy audio na tekst.
Agent przetwarza transkrypcję i przygotowuje odpowiedź tekstową. Nie wysyłaj tej odpowiedzi użytkownikowi — przejdź do następnego kroku.
Aby wygenerować audio z odpowiedzi, użyj polecenia synthesize: python3 {baseDir}/scripts/client.py synthesize "Tekst do wymówienia" --output "/ścieżka/do/wyjścia.mp3". AWS Polly utworzy plik audio.
Wyślij wygenerowany plik audio użytkownikowi. Nie dodawaj żadnego tekstu wyjaśniającego — audio jest kompletną odpowiedzią. Jeśli API nie odpowiada, sprawdź status backendu za pomocą polecenia health i upewnij się, że serwer działa prawidłowo.

Podobne skille

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

academic-researcher

autor: Shubhamsaboo

Asystent do analiz naukowych, przeglądów literatury i pisania prac badawczych

Bezpieczeństwo

1260

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105