Toolverse
Wszystkie skille

transcription

autor: MadAppGang

Transkrypcja audio i wideo za pomocą Whisper – wybierz model i format, który pasuje do Twoich potrzeb.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
2

O skillu

Skill do transkrypcji plików audio i wideo oparty na OpenAI Whisper. Obsługuje wiele formatów wyjściowych (SRT, VTT, JSON), automatyczne wykrywanie języka, synchronizację czasową i identyfikację mówiących. Zainstaluj jeden z trzech wariantów (Python, C++ lub GPU-accelerated), wybierz model odpowiedni do Twojego sprzętu i jakości, a następnie transkrybuj media lub generuj napisy. Idealne do szybkich podglądów lub produkcyjnych transkrypcji wysokiej jakości.

Jak używać

  1. Zainstaluj Whisper – wybierz jedną z trzech opcji: standardowy OpenAI Whisper przez pip (pip install openai-whisper), szybszą wersję whisper.cpp (brew install whisper-cpp na macOS lub budowanie ze źródła na Linuxie), lub GPU-przyspieszony wariant (pip install insanely-fast-whisper). Zweryfikuj instalację poleceniem whisper --help.

  2. Wybierz model w zależności od Twojego sprzętu i wymagań jakości. Model tiny (39M, ~1GB VRAM) nadaje się do szybkich podglądów, base (74M) do roboczych transkrypcji, small (244M, ~2GB) to dobry kompromis między szybkością a jakością, medium (769M, ~5GB) dla lepszej dokładności, a large-v3 (1550M, ~10GB) dla produkcyjnych transkrypcji najwyższej jakości.

  3. Uruchom transkrypcję podstawową poleceniem whisper audio.mp3 --model small, które automatycznie wykryje język. Jeśli chcesz określić język, dodaj flagę --language en (lub inny kod języka).

  4. Wybierz format wyjściowy – dodaj --output_format srt dla napisów SRT, vtt dla VTT, json dla JSON, lub all aby wygenerować wszystkie formaty jednocześnie.

  5. Aby uzyskać dokładne czasy na poziomie słów, dodaj flagę --word_timestamps True do polecenia. Ta opcja przydaje się przy tworzeniu zaawansowanych napisów lub edycji wideo.

  6. Czekaj na zakończenie przetwarzania – czas zależy od długości pliku, wybranego modelu i dostępnych zasobów sprzętowych. Po zakończeniu transkrypcja zostanie zapisana w wybranym formacie w tym samym katalogu co plik źródłowy.

Podobne skille