Toolverse
Wszystkie skille

deepgram-core-workflow-b

autor: jeremylongshore

Transkrypcja audio w czasie rzeczywistym przez WebSocket – idealna do aplikacji głosowych i live captioningu.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
3

O skillu

Skill do integracji z Deepgram, który umożliwia transkrypcję streamingową audio w czasie rzeczywistym. Obsługuje mikrofon, pliki audio i strumienie WebSocket z przeglądarki. Zawiera detekcję aktywności głosu, rozpoznawanie końca wypowiedzi, automatyczne ponowne połączenie i endpoint SSE dla klientów przeglądarki. Idealny do budowania interfejsów głosowych, live captioningu i aplikacji przetwarzających audio na żywo.

Jak używać

  1. Zainstaluj pakiet SDK Deepgram: npm install @deepgram/sdk. Upewnij się, że masz ustawioną zmienną środowiskową DEEPGRAM_API_KEY z Twoim kluczem API.

  2. Jeśli chcesz przechwytywać audio z mikrofonu, zainstaluj narzędzie Sox: apt install sox (Linux) lub brew install sox (macOS).

  3. Zaimportuj createClient i LiveTranscriptionEvents z @deepgram/sdk, a następnie utwórz połączenie WebSocket za pomocą deepgram.listen.live() z parametrami: model 'nova-3', language 'en', smart_format: true, interim_results: true (wyświetla wyniki w trakcie mówienia), utterance_end_ms: 1000 (próg ciszy), encoding: 'linear16', sample_rate: 16000, channels: 1.

  4. Nasłuchuj zdarzeń połączenia: Open (połączenie nawiązane), Close (zamknięte), Transcript (wyniki transkrypcji), UtteranceEnd (koniec wypowiedzi), Error (błędy). Obsługuj wyniki pośrednie i ostateczne osobno.

  5. Podłącz źródło audio: mikrofon przez Sox (rec), strumień pliku lub WebSocket z przeglądarki. Skill automatycznie zarządza ponownym połączeniem w przypadku przerwania.

  6. Dla klientów przeglądarki zbuduj endpoint SSE, który przekazuje zdarzenia transkrypcji do frontendu w czasie rzeczywistym.

Podobne skille