voice-transcribe
Transkrypcja nagrań audio z AI — dodaj słownik i poprawiaj błędy automatycznie
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia szybką konwersję plików audio na tekst za pomocą modelu GPT-4o-mini. Obsługuje wszystkie popularne formaty (mp3, wav, m4a, webm i inne). Możesz dodać własny słownik terminów i reguły poprawiania błędów transkrypcji — przydatne, gdy AI źle rozpoznaje nazwy własne lub specjalistyczne słowa. Wymaga zainstalowania narzędzia uv.
Jak używać
Zainstaluj narzędzie uv, jeśli jeszcze go nie masz, zgodnie z instrukcją na https://docs.astral.sh/uv/.
Pobierz skill voice-transcribe z repozytorium https://github.com/openclaw/skills/tree/main/skills/darinkishore/voice-transcribe i umieść go w swoim katalogu projektów.
W pliku .env w katalogu voice-transcribe dodaj swój klucz API OpenAI: OPENAI_API_KEY=sk-... (uzyskaj klucz z panelu OpenAI).
Aby transkrybować plik audio, uruchom komendę: uv run transcribe /ścieżka/do/pliku.mp3 (zastąp ścieżkę rzeczywistą lokalizacją pliku). Obsługiwane formaty to mp3, mp4, m4a, wav, webm, ogg i opus.
Jeśli AI źle transkrybuje określone słowa, dodaj je do pliku vocab.txt (po jednym słowie w linii), aby dać modelowi wskazówkę — przydatne dla nazw własnych i terminów specjalistycznych. Dla gwarantowanego poprawienia błędu dodaj regułę do replacements.txt w formacie: błędny tekst -> poprawny tekst.
Wynik transkrypcji możesz przekierować do schowka lub innego narzędzia, np. uv run transcribe /tmp/memo.ogg | pbcopy.