Toolverse
Wszystkie skille

elevenlabs-stt

autor: openclaw

Transkrypcja audio w 90+ językach z identyfikacją mówców

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Backend
Wyświetlenia
3

O skillu

Umożliwia transkrypcję plików audio i wideo za pomocą modelu Scribe v2 od ElevenLabs. Obsługuje ponad 90 języków i pozwala na automatyczne rozpoznawanie różnych mówców (diaryzacja). Narzędzie wspiera wszystkie popularne formaty: mp3, m4a, wav, ogg, webm, mp4. Wynik można otrzymać jako zwykły tekst lub pełny JSON z czasownikami dla każdego słowa. Idealne do transkrypcji nagrań spotkań, podcastów, notatek głosowych i innych materiałów audio.

Jak używać

  1. Zainstaluj umiejętność w swoim środowisku clawdbot, upewniając się, że masz zainstalowany curl i dostęp do API ElevenLabs.

  2. Skonfiguruj klucz API, ustawiając zmienną środowiskową ELEVENLABS_API_KEY lub dodając go do pliku konfiguracyjnego clawdbot.json w sekcji skills > entries > elevenlabs-stt.

  3. Przygotuj plik audio lub wideo, który chcesz transkrybować (obsługiwane są formaty mp3, m4a, wav, ogg, webm, mp4).

  4. Uruchom transkrypcję za pomocą polecenia {baseDir}/scripts/transcribe.sh ścieżka/do/pliku.mp3. Jeśli chcesz, aby system automatycznie identyfikował różnych mówców, dodaj flagę --diarize.

  5. Opcjonalnie określ język nagrania flagą --lang (np. --lang pl dla polskiego), co poprawia dokładność rozpoznawania. Jeśli potrzebujesz wyniku w formacie JSON z dokładnymi czasami dla każdego słowa, dodaj flagę --json.

  6. Czekaj na ukończenie transkrypcji – wynik zostanie wyświetlony w terminalu lub zapisany do pliku, jeśli przekierowałeś wyjście.

Podobne skille