Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Whisper to model rozpoznawania mowy OpenAI, który obsługuje transkrypcję i tłumaczenie audio w 99 językach. Dostępny w sześciu wariantach – od lekkiego (39M parametrów) do dużego (1550M parametrów) – radzi sobie z hałasem i różnorodnymi źródłami dźwięku. Idealny do automatyzacji notatek ze spotkań, transkrypcji podcastów i przetwarzania wielojęzycznego materiału audio. Wspierany przez ponad 72 900 gwiazdek na GitHubie i wytrenowany na 680 000 godzinach nagrań.
Jak używać
Zainstaluj Whisper za pomocą pip (wymaga Python 3.8–3.11): uruchom polecenie
pip install -U openai-whisper. Upewnij się, że masz zainstalowany ffmpeg – na macOS użyjbrew install ffmpeg, na Ubuntusudo apt install ffmpeg, na Windowschoco install ffmpeg.Załaduj model Whisper w Pythonie – zaimportuj bibliotekę
whisperi wczytaj wybrany model poleceniemwhisper.load_model("base"). Dostępne są warianty: tiny, base, small, medium, large i turbo – wybierz w zależności od wymaganej szybkości i jakości.Transkrybuj plik audio, przekazując ścieżkę do pliku metodzie
transcribe()– na przykładresult = model.transcribe("audio.mp3"). Model automatycznie wykryje język i zwróci pełny tekst transkrypcji.Wyświetl wynik transkrypcji – dostęp do pełnego tekstu uzyskasz przez
result["text"], a do poszczególnych segmentów (z czasami) przez iterację poresult["segments"], gdzie każdy segment zawiera czas początkowy, końcowy i tekst.