W
whisper-transcription
Transkrypcja audio i wideo na tekst z dokładnym czasem każdego słowa
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Whisper to narzędzie do zamiany mowy na tekst z precyzyjnymi znacznikami czasowymi dla każdego słowa. Wykorzystuje model OpenAI Whisper, który obsługuje różne języki i oferuje wybór między szybkością a dokładnością. Możesz wybrać model tiny (39 MB, najszybszy), base (74 MB) lub small (244 MB, najdokładniejszy). Narzędzie idealnie sprawdza się do transkrypcji nagrań z podcastów, wywiadów czy spotkań, gdzie potrzebujesz nie tylko tekstu, ale także informacji o tym, kiedy każde słowo zostało wypowiedziane.
Jak używać
- Zainstaluj bibliotekę Whisper za pomocą polecenia pip install openai-whisper w swoim środowisku Python.
- Przygotuj plik audio lub wideo, który chcesz transkrybować — Whisper obsługuje popularne formaty takie jak MP3, WAV, MP4 i inne.
- Załaduj wybrany model Whisper (zalecane jest rozpoczęcie od modelu tiny ze względu na szybkość — doskonale radzi sobie z czystym dźwiękiem).
- Uruchom transkrypcję z włączoną opcją word_timestamps=True, aby uzyskać dokładne czasy dla każdego słowa — możesz również określić język nagrania dla lepszej dokładności.
- Wyodrębnij słowa z ich znacznikami czasowymi z wyniku transkrypcji — każde słowo będzie zawierać tekst oraz czasy rozpoczęcia i zakończenia.
- Zapisz wynik w formacie JSON lub innym wybranym formacie — możesz teraz używać tych danych do dalszej analizy, edycji lub integracji z innymi narzędziami.