deepgram-core-workflow-b
Transkrypcja audio w czasie rzeczywistym przez WebSocket – idealna do aplikacji głosowych i live captioningu.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do integracji z Deepgram, który umożliwia transkrypcję streamingową audio w czasie rzeczywistym. Obsługuje mikrofon, pliki audio i strumienie WebSocket z przeglądarki. Zawiera detekcję aktywności głosu, rozpoznawanie końca wypowiedzi, automatyczne ponowne połączenie i endpoint SSE dla klientów przeglądarki. Idealny do budowania interfejsów głosowych, live captioningu i aplikacji przetwarzających audio na żywo.
Jak używać
Zainstaluj pakiet SDK Deepgram: npm install @deepgram/sdk. Upewnij się, że masz ustawioną zmienną środowiskową DEEPGRAM_API_KEY z Twoim kluczem API.
Jeśli chcesz przechwytywać audio z mikrofonu, zainstaluj narzędzie Sox: apt install sox (Linux) lub brew install sox (macOS).
Zaimportuj createClient i LiveTranscriptionEvents z @deepgram/sdk, a następnie utwórz połączenie WebSocket za pomocą deepgram.listen.live() z parametrami: model 'nova-3', language 'en', smart_format: true, interim_results: true (wyświetla wyniki w trakcie mówienia), utterance_end_ms: 1000 (próg ciszy), encoding: 'linear16', sample_rate: 16000, channels: 1.
Nasłuchuj zdarzeń połączenia: Open (połączenie nawiązane), Close (zamknięte), Transcript (wyniki transkrypcji), UtteranceEnd (koniec wypowiedzi), Error (błędy). Obsługuj wyniki pośrednie i ostateczne osobno.
Podłącz źródło audio: mikrofon przez Sox (rec), strumień pliku lub WebSocket z przeglądarki. Skill automatycznie zarządza ponownym połączeniem w przypadku przerwania.
Dla klientów przeglądarki zbuduj endpoint SSE, który przekazuje zdarzenia transkrypcji do frontendu w czasie rzeczywistym.
Podobne skille
windows-ui-automation
autor: martinholovsky
python-expert
autor: Shubhamsaboo
architect-review
autor: sickn33
reviewing-code
autor: CaptainCrouton89
skill-writer
autor: pytorch
backend-security-coder
autor: sickn33