V
voice-ai-engine-development
Buduj asynchroniczne silniki AI do rozmów głosowych z obsługą przerwań i wieloma dostawcami
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do tworzenia produkcyjnych silników konwersacyjnych AI w czasie rzeczywistym. Architektura opiera się na asynchronicznych pipelinach worker'ów, gdzie każdy komponent (transkrypcja, agent LLM, synteza mowy) działa niezależnie i komunikuje się przez kolejki asyncio. Obsługuje streaming audio, przerwania mid-stream, integrację wielu dostawców transkrypcji i TTS oraz przetwarzanie równoczesne wszystkich etapów konwersacji.
Jak używać
- Zainstaluj skill voice-ai-engine-development w swoim projekcie i zaimportuj klasy BaseWorker oraz komponenty pipeline'u (Transcriber, Agent, Synthesizer). 2. Zdefiniuj trzy obiekty asyncio.Queue — jeden dla wejścia audio, jeden dla transkrypcji, jeden dla odpowiedzi agenta — które będą łączyć poszczególne worker'y. 3. Utwórz instancje worker'ów: Transcriber (nasłuchuje audio i wysyła tekst), Agent (odbiera tekst, generuje odpowiedź LLM), Synthesizer (konwertuje odpowiedź na mowę). Każdy worker otrzymuje referencje do swoich kolejek wejściowych i wyjściowych. 4. Uruchom wszystkie worker'y równocześnie za pomocą asyncio.gather() — architektura automatycznie obsługuje backpressure i synchronizację między komponentami. 5. Aby obsługiwać przerwania, wyślij sygnał stop do odpowiedniego worker'a; kolejki asyncio gwarantują bezpieczne zatrzymanie mid-stream bez utraty danych. 6. Zintegruj dostawców transkrypcji (np. Deepgram, Whisper) i TTS (np. ElevenLabs, Google Cloud) poprzez abstrakcje worker'ów — każdy dostawca jest pluginem, który można wymieniać bez zmian w pipeline'u.