Toolverse
Wszystkie skille

elevenlabs-ai

autor: openclaw

Integruj syntezę mowy i rozpoznawanie głosu bezpośrednio przez API ElevenLabs

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
26

O skillu

Umiejętność OpenClaw do pracy z API ElevenLabs bez konieczności SDK. Obsługuje konwersję tekstu na mowę, mowę na mowę, rozpoznawanie mowy w czasie rzeczywistym oraz dialogi wielogłosowe. Skierowana do deweloperów, którzy preferują bezpośrednie wywołania HTTP i chcą kontrolować każdy aspekt przepływu audio — od wyboru głosu, przez kodek, aż po bezpieczeństwo danych. Zawiera wytyczne dotyczące uwierzytelniania, przechowywania tokenów i ochrony prywatności.

Jak używać

  1. Przygotuj klucz API ElevenLabs (xi-api-key) lub wygeneruj token jednorazowy dla dostępu po stronie klienta. Nigdy nie loguj kluczy ani tokenów w logach aplikacji.

  2. Zapoznaj się z dokumentacją referencyjną umiejętności: przeczytaj pliki dotyczące uwierzytelniania, wyboru głosów i modeli, a także zasad bezpieczeństwa i prywatności. Zidentyfikuj, które API potrzebujesz — czy będzie to synteza tekstu na mowę, konwersja głosu, czy rozpoznawanie mowy w czasie rzeczywistym.

  3. Zbierz wymagane parametry: identyfikatory głosów (voice IDs), identyfikatory modeli (model IDs) oraz preferowany format wyjścia audio (kodek, częstotliwość próbkowania, przepustowość). Przechowuj te dane po stronie serwera, aby uniknąć powtarzalnych zapytań.

  4. Przygotuj ładunek HTTP dla wybranego endpointu — na przykład dla tekstu na mowę przekaż tekst, ID głosu i parametry audio. Wysyłaj żądania bezpośrednio przez HTTPS bez pośrednika SDK.

  5. Obsługuj odpowiedzi i błędy: przechowuj wyjście audio zgodnie z wybranym formatem, implementuj ponowne próby z wycofywaniem się w przypadku ograniczenia przepustowości, i utrzymuj białą listę dozwolonych miejsc docelowych dla wyjścia audio.

  6. Dla zaawansowanych scenariuszy (dialogi wielogłosowe lub rozpoznawanie w czasie rzeczywistym) użyj odpowiednich endpointów — WebSocket dla STT w czasie rzeczywistym lub endpoint dialogu dla sekwencji wielogłosowych. Zawsze przestrzegaj zasad zerowego przechowywania danych i bezpieczeństwa określonych w dokumentacji.

Podobne skille