Toolverse
Wszystkie skille

transcribe

autor: openai

Transkrypcja audio na tekst z rozpoznawaniem mówców

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
openai
Kategoria
Data Science
Wyświetlenia
48

O skillu

Zamień nagrania audio i wideo na tekst za pomocą API OpenAI. Skill obsługuje automatyczne rozpoznawanie i etykietowanie mówców (diaryzacja), idealne do transkrypcji rozmów, spotkań i wywiadów. Wybierz format wyjścia: zwykły tekst, JSON lub JSON z informacją o mówcach. Obsługuje wskazówki dotyczące języka i znanych uczestników.

Jak używać

  1. Upewnij się, że masz zainstalowany Python 3 i narzędzie uv. Zainstaluj zależności poleceniem: uv pip install openai (lub python3 -m pip install openai, jeśli uv nie jest dostępne).

  2. Ustaw zmienną środowiskową OPENAI_API_KEY z Twoim kluczem API z platformy OpenAI. Nigdy nie wklejaj klucza bezpośrednio w czacie — zamiast tego wyeksportuj go w swoim terminalu.

  3. Przygotuj plik audio lub wideo, który chcesz transkrybować. Jeśli nagranie trwa dłużej niż ~30 sekund, skill automatycznie podzieli je na fragmenty.

  4. Uruchom transkrypcję za pomocą bundled CLI. Dla szybkiej transkrypcji tekstu użyj domyślnych ustawień (model gpt-4o-mini-transcribe). Jeśli potrzebujesz rozpoznawania mówców, wskaż to życzenie — skill przełączy się na model gpt-4o-transcribe-diarize i zwróci wynik w formacie JSON z etykietami mówców.

  5. Wyniki zostaną zapisane w katalogu output/transcribe/. Jeśli transkrybujesz wiele plików, użyj flagi --out-dir, aby uniknąć nadpisywania wyników.

  6. Sprawdź jakość transkrypcji, etykiety mówców i granice segmentów. Jeśli potrzebujesz poprawy, poproś o pojedynczą, ukierunkowaną zmianę — skill obsługuje iteracyjne ulepszenia.

Podobne skille