local-whisper
Transkrypcja mowy offline z modelem Whisper — bez wysyłania danych do chmury
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Zamień nagrania audio na tekst, pracując całkowicie offline. Skill wykorzystuje model Whisper od OpenAI i uruchamia się lokalnie na Twoim komputerze po pobraniu modelu. Wybierz spośród pięciu rozmiarów modelu — od szybkiego (39 MB) do najdokładniejszego (1,5 GB). Obsługuje automatyczne rozpoznawanie języka, dodawanie znaczników czasu oraz eksport do JSON. Wymaga zainstalowanego ffmpeg.
Jak używać
Upewnij się, że masz zainstalowany ffmpeg na swoim systemie — jest to wymagane do przetwarzania plików audio.
Przejdź do katalogu skill'u i zainstaluj zależności za pomocą uv. Uruchom polecenie
cd ~/.clawdbot/skills/local-whisper, a następnieuv venv .venv --python 3.12orazuv pip install --python .venv/bin/python click openai-whisper torch --index-url https://download.pytorch.org/whl/cpu. Proces pobierze niezbędne biblioteki.Przygotuj plik audio (np. audio.wav) i uruchom transkrypcję podstawowym poleceniem:
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav. Domyślnie używany jest model base (74 MB).Jeśli chcesz lepszą jakość z szybszą pracą, użyj modelu turbo:
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --model turbo. Dla maksymalnej dokładności wybierz large-v3.Aby uzyskać dodatkowe informacje (znaczniki czasu, format JSON), dodaj flagi:
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --timestamps --json. Wynik zostanie wyświetlony w strukturze JSON z dokładnym czasem każdego słowa.Jeśli chcesz pracować w ciszy bez komunikatów postępu, dodaj flagę
--quietdo dowolnego polecenia.