Toolverse
Wszystkie skille

voice-agents

autor: davila7

Buduj agentów głosowych z naturalną rozmową i latencją poniżej 800ms

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
DevOps
Wyświetlenia
45

O skillu

Skill do tworzenia agentów AI, którzy rozmawiają naturalnie ze słuchaczami. Obsługuje dwie architektury: bezpośrednią konwersję mowy (OpenAI Realtime API, najniższa latencja) i potok STT→LLM→TTS (większa kontrola, łatwiejsze debugowanie). Kluczowe wyzwanie: osiągnięcie płynnej rozmowy przy jednoczesnym radzeniu sobie z przerwaniami, szumem tła i nuansami emocjonalnymi. Dowiedz się, jak budżetować latencję każdego komponentu i implementować detekcję aktywności głosu oraz przerwania użytkownika.

Jak używać

  1. Zainstaluj skill voice-agents z repozytorium davila7/claude-code-templates, katalog cli-tool/components/skills/ai-research/voice-agents. Skill wymaga dostępu do OpenAI Realtime API lub komponentów STT, LLM i TTS.

  2. Wybierz architekturę: speech-to-speech (S2S) dla najniższej latencji i naturalności, lub potok STT→LLM→TTS jeśli potrzebujesz kontroli nad każdym etapem przetwarzania.

  3. Zabudżetuj latencję dla każdego komponentu w łańcuchu. Pamiętaj, że każdy element dodaje milisekundy — suma wszystkich opóźnień decyduje, czy rozmowa będzie naturalna czy sztywna. Cel: poniżej 800ms całkowitej latencji.

  4. Implementuj detekcję aktywności głosu (VAD) do wykrywania, kiedy użytkownik zaczyna i kończy mówić. Używaj semantycznego VAD zamiast detektora ciszy, aby uniknąć fałszywych przerwań.

  5. Dodaj detekcję przerwania (barge-in detection), aby agent mógł reagować na przerwania użytkownika w trakcie swojej odpowiedzi.

  6. Ograniczaj długość odpowiedzi agenta w promptach systemowych — długie monologi zwiększają latencję i psują naturalność rozmowy.

Podobne skille