Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia transkrypcję plików audio i wideo za pomocą modelu Scribe v2 od ElevenLabs. Obsługuje ponad 90 języków i pozwala na automatyczne rozpoznawanie różnych mówców (diaryzacja). Narzędzie wspiera wszystkie popularne formaty: mp3, m4a, wav, ogg, webm, mp4. Wynik można otrzymać jako zwykły tekst lub pełny JSON z czasownikami dla każdego słowa. Idealne do transkrypcji nagrań spotkań, podcastów, notatek głosowych i innych materiałów audio.
Jak używać
Zainstaluj umiejętność w swoim środowisku clawdbot, upewniając się, że masz zainstalowany curl i dostęp do API ElevenLabs.
Skonfiguruj klucz API, ustawiając zmienną środowiskową ELEVENLABS_API_KEY lub dodając go do pliku konfiguracyjnego clawdbot.json w sekcji skills > entries > elevenlabs-stt.
Przygotuj plik audio lub wideo, który chcesz transkrybować (obsługiwane są formaty mp3, m4a, wav, ogg, webm, mp4).
Uruchom transkrypcję za pomocą polecenia {baseDir}/scripts/transcribe.sh ścieżka/do/pliku.mp3. Jeśli chcesz, aby system automatycznie identyfikował różnych mówców, dodaj flagę --diarize.
Opcjonalnie określ język nagrania flagą --lang (np. --lang pl dla polskiego), co poprawia dokładność rozpoznawania. Jeśli potrzebujesz wyniku w formacie JSON z dokładnymi czasami dla każdego słowa, dodaj flagę --json.
Czekaj na ukończenie transkrypcji – wynik zostanie wyświetlony w terminalu lub zapisany do pliku, jeśli przekierowałeś wyjście.