Toolverse
Wszystkie skille

podcast-generation

autor: microsoft

Zamień tekst w naturalne opowiadania audio za pomocą sztucznej inteligencji

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps

O skillu

Skill do generowania podcastów i narracji audio bezpośrednio z tekstu. Wykorzystuje Azure OpenAI Realtime API do tworzenia naturalnie brzmiącego głosu przez WebSocket. Idealne do automatyzacji tworzenia treści audio, podcastów z artykułów czy integracji funkcji tekst-na-mowę w aplikacjach. Zawiera pełną implementację: frontend React i backend Python FastAPI ze streamingiem danych.

Jak używać

  1. Skonfiguruj zmienne środowiskowe: AZURE_OPENAI_AUDIO_API_KEY (klucz API), AZURE_OPENAI_AUDIO_ENDPOINT (bazowy URL zasobu Azure, bez /openai/v1/) i AZURE_OPENAI_AUDIO_DEPLOYMENT (ustaw na gpt-realtime-mini).

  2. W backendzie Python zainicjuj klienta AsyncOpenAI, konwertując HTTPS endpoint na WebSocket URL (zamień https:// na wss:// i dodaj /openai/v1 na koniec).

  3. Nawiąż połączenie WebSocket do modelu gpt-realtime-mini i skonfiguruj sesję z output_modalities ustawioną na audio oraz instrukcjami dla narratora.

  4. Wyślij tekst do narracji jako wiadomość użytkownika przez API konwersacji.

  5. Zbieraj przychodzące zdarzenia streamingowe z audio (chunki PCM) i transkrypcję, konwertując PCM na format WAV.

  6. Zwróć zakodowane audio w base64 do frontendu React w celu odtworzenia użytkownikowi.

Podobne skille