Toolverse
Wszystkie skille

local-whisper

autor: openclaw

Transkrypcja mowy offline z modelem Whisper — bez wysyłania danych do chmury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
19

O skillu

Zamień nagrania audio na tekst, pracując całkowicie offline. Skill wykorzystuje model Whisper od OpenAI i uruchamia się lokalnie na Twoim komputerze po pobraniu modelu. Wybierz spośród pięciu rozmiarów modelu — od szybkiego (39 MB) do najdokładniejszego (1,5 GB). Obsługuje automatyczne rozpoznawanie języka, dodawanie znaczników czasu oraz eksport do JSON. Wymaga zainstalowanego ffmpeg.

Jak używać

  1. Upewnij się, że masz zainstalowany ffmpeg na swoim systemie — jest to wymagane do przetwarzania plików audio.

  2. Przejdź do katalogu skill'u i zainstaluj zależności za pomocą uv. Uruchom polecenie cd ~/.clawdbot/skills/local-whisper, a następnie uv venv .venv --python 3.12 oraz uv pip install --python .venv/bin/python click openai-whisper torch --index-url https://download.pytorch.org/whl/cpu. Proces pobierze niezbędne biblioteki.

  3. Przygotuj plik audio (np. audio.wav) i uruchom transkrypcję podstawowym poleceniem: ~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav. Domyślnie używany jest model base (74 MB).

  4. Jeśli chcesz lepszą jakość z szybszą pracą, użyj modelu turbo: ~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --model turbo. Dla maksymalnej dokładności wybierz large-v3.

  5. Aby uzyskać dodatkowe informacje (znaczniki czasu, format JSON), dodaj flagi: ~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --timestamps --json. Wynik zostanie wyświetlony w strukturze JSON z dokładnym czasem każdego słowa.

  6. Jeśli chcesz pracować w ciszy bez komunikatów postępu, dodaj flagę --quiet do dowolnego polecenia.

Podobne skille