transcription

Name: transcription
Author: MadAppGang

autor: MadAppGang

Transkrypcja audio i wideo za pomocą Whisper – wybierz model i format, który pasuje do Twoich potrzeb.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: MadAppGang
Kategoria: Data Science
Wyświetlenia: 2

Repozytorium GitHub

O skillu

Skill do transkrypcji plików audio i wideo oparty na OpenAI Whisper. Obsługuje wiele formatów wyjściowych (SRT, VTT, JSON), automatyczne wykrywanie języka, synchronizację czasową i identyfikację mówiących. Zainstaluj jeden z trzech wariantów (Python, C++ lub GPU-accelerated), wybierz model odpowiedni do Twojego sprzętu i jakości, a następnie transkrybuj media lub generuj napisy. Idealne do szybkich podglądów lub produkcyjnych transkrypcji wysokiej jakości.

Jak używać

Zainstaluj Whisper – wybierz jedną z trzech opcji: standardowy OpenAI Whisper przez pip (pip install openai-whisper), szybszą wersję whisper.cpp (brew install whisper-cpp na macOS lub budowanie ze źródła na Linuxie), lub GPU-przyspieszony wariant (pip install insanely-fast-whisper). Zweryfikuj instalację poleceniem whisper --help.
Wybierz model w zależności od Twojego sprzętu i wymagań jakości. Model tiny (39M, ~1GB VRAM) nadaje się do szybkich podglądów, base (74M) do roboczych transkrypcji, small (244M, ~2GB) to dobry kompromis między szybkością a jakością, medium (769M, ~5GB) dla lepszej dokładności, a large-v3 (1550M, ~10GB) dla produkcyjnych transkrypcji najwyższej jakości.
Uruchom transkrypcję podstawową poleceniem whisper audio.mp3 --model small, które automatycznie wykryje język. Jeśli chcesz określić język, dodaj flagę --language en (lub inny kod języka).
Wybierz format wyjściowy – dodaj --output_format srt dla napisów SRT, vtt dla VTT, json dla JSON, lub all aby wygenerować wszystkie formaty jednocześnie.
Aby uzyskać dokładne czasy na poziomie słów, dodaj flagę --word_timestamps True do polecenia. Ta opcja przydaje się przy tworzeniu zaawansowanych napisów lub edycji wideo.
Czekaj na zakończenie przetwarzania – czas zależy od długości pliku, wybranego modelu i dostępnych zasobów sprzętowych. Po zakończeniu transkrypcja zostanie zapisana w wybranym formacie w tym samym katalogu co plik źródłowy.

Podobne skille

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Data Science

31144

market-analysis

autor: xbklairith

Analiza rynków z wskaźnikami technicznymi, wsparciem i oporem, trendami multi-timeframe

Data Science

29144

rust-coding-skill

autor: UtakataKyosui

Umiejętność Claude'a do pisania idiomatycznego, wydajnego kodu w Rust z prawidłową architekturą

Data Science

248325

a-stock-analysis

autor: openclaw

Analizuj notowania giełdowe w czasie rzeczywistym i śledź ruchy głównych graczy na rynku.

Data Science

48153

skill-creator

autor: anthropics

Twórz umiejętności dla Claude'a – rozszerz jego możliwości o specjalistyczną wiedzę i przepływy pracy

Data Science

59147

threejs

autor: mrgoonie

Twórz interaktywne aplikacje 3D w przeglądarce z Three.js i WebGL

Data Science

1743