podcast-generation
Zamień tekst w naturalne opowiadania audio za pomocą sztucznej inteligencji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do generowania podcastów i narracji audio bezpośrednio z tekstu. Wykorzystuje Azure OpenAI Realtime API do tworzenia naturalnie brzmiącego głosu przez WebSocket. Idealne do automatyzacji tworzenia treści audio, podcastów z artykułów czy integracji funkcji tekst-na-mowę w aplikacjach. Zawiera pełną implementację: frontend React i backend Python FastAPI ze streamingiem danych.
Jak używać
Skonfiguruj zmienne środowiskowe: AZURE_OPENAI_AUDIO_API_KEY (klucz API), AZURE_OPENAI_AUDIO_ENDPOINT (bazowy URL zasobu Azure, bez /openai/v1/) i AZURE_OPENAI_AUDIO_DEPLOYMENT (ustaw na gpt-realtime-mini).
W backendzie Python zainicjuj klienta AsyncOpenAI, konwertując HTTPS endpoint na WebSocket URL (zamień https:// na wss:// i dodaj /openai/v1 na koniec).
Nawiąż połączenie WebSocket do modelu gpt-realtime-mini i skonfiguruj sesję z output_modalities ustawioną na audio oraz instrukcjami dla narratora.
Wyślij tekst do narracji jako wiadomość użytkownika przez API konwersacji.
Zbieraj przychodzące zdarzenia streamingowe z audio (chunki PCM) i transkrypcję, konwertując PCM na format WAV.
Zwróć zakodowane audio w base64 do frontendu React w celu odtworzenia użytkownikowi.