Toolverse
Wszystkie skille

whisper

autor: davila7

Rozpoznawanie mowy w 99 językach – transkrypcja audio bez granic

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
61

O skillu

Whisper to model rozpoznawania mowy OpenAI, który obsługuje transkrypcję i tłumaczenie audio w 99 językach. Dostępny w sześciu wariantach – od lekkiego (39M parametrów) do dużego (1550M parametrów) – radzi sobie z hałasem i różnorodnymi źródłami dźwięku. Idealny do automatyzacji notatek ze spotkań, transkrypcji podcastów i przetwarzania wielojęzycznego materiału audio. Wspierany przez ponad 72 900 gwiazdek na GitHubie i wytrenowany na 680 000 godzinach nagrań.

Jak używać

  1. Zainstaluj Whisper za pomocą pip (wymaga Python 3.8–3.11): uruchom polecenie pip install -U openai-whisper. Upewnij się, że masz zainstalowany ffmpeg – na macOS użyj brew install ffmpeg, na Ubuntu sudo apt install ffmpeg, na Windows choco install ffmpeg.

  2. Załaduj model Whisper w Pythonie – zaimportuj bibliotekę whisper i wczytaj wybrany model poleceniem whisper.load_model("base"). Dostępne są warianty: tiny, base, small, medium, large i turbo – wybierz w zależności od wymaganej szybkości i jakości.

  3. Transkrybuj plik audio, przekazując ścieżkę do pliku metodzie transcribe() – na przykład result = model.transcribe("audio.mp3"). Model automatycznie wykryje język i zwróci pełny tekst transkrypcji.

  4. Wyświetl wynik transkrypcji – dostęp do pełnego tekstu uzyskasz przez result["text"], a do poszczególnych segmentów (z czasami) przez iterację po result["segments"], gdzie każdy segment zawiera czas początkowy, końcowy i tekst.

Podobne skille