voice-agents
Buduj agentów głosowych z naturalną rozmową i latencją poniżej 800ms
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do tworzenia agentów AI, którzy rozmawiają naturalnie ze słuchaczami. Obsługuje dwie architektury: bezpośrednią konwersję mowy (OpenAI Realtime API, najniższa latencja) i potok STT→LLM→TTS (większa kontrola, łatwiejsze debugowanie). Kluczowe wyzwanie: osiągnięcie płynnej rozmowy przy jednoczesnym radzeniu sobie z przerwaniami, szumem tła i nuansami emocjonalnymi. Dowiedz się, jak budżetować latencję każdego komponentu i implementować detekcję aktywności głosu oraz przerwania użytkownika.
Jak używać
Zainstaluj skill voice-agents z repozytorium davila7/claude-code-templates, katalog cli-tool/components/skills/ai-research/voice-agents. Skill wymaga dostępu do OpenAI Realtime API lub komponentów STT, LLM i TTS.
Wybierz architekturę: speech-to-speech (S2S) dla najniższej latencji i naturalności, lub potok STT→LLM→TTS jeśli potrzebujesz kontroli nad każdym etapem przetwarzania.
Zabudżetuj latencję dla każdego komponentu w łańcuchu. Pamiętaj, że każdy element dodaje milisekundy — suma wszystkich opóźnień decyduje, czy rozmowa będzie naturalna czy sztywna. Cel: poniżej 800ms całkowitej latencji.
Implementuj detekcję aktywności głosu (VAD) do wykrywania, kiedy użytkownik zaczyna i kończy mówić. Używaj semantycznego VAD zamiast detektora ciszy, aby uniknąć fałszywych przerwań.
Dodaj detekcję przerwania (barge-in detection), aby agent mógł reagować na przerwania użytkownika w trakcie swojej odpowiedzi.
Ograniczaj długość odpowiedzi agenta w promptach systemowych — długie monologi zwiększają latencję i psują naturalność rozmowy.