Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Zamień nagrania audio i wideo na tekst za pomocą API OpenAI. Skill obsługuje automatyczne rozpoznawanie i etykietowanie mówców (diaryzacja), idealne do transkrypcji rozmów, spotkań i wywiadów. Wybierz format wyjścia: zwykły tekst, JSON lub JSON z informacją o mówcach. Obsługuje wskazówki dotyczące języka i znanych uczestników.
Jak używać
Upewnij się, że masz zainstalowany Python 3 i narzędzie uv. Zainstaluj zależności poleceniem: uv pip install openai (lub python3 -m pip install openai, jeśli uv nie jest dostępne).
Ustaw zmienną środowiskową OPENAI_API_KEY z Twoim kluczem API z platformy OpenAI. Nigdy nie wklejaj klucza bezpośrednio w czacie — zamiast tego wyeksportuj go w swoim terminalu.
Przygotuj plik audio lub wideo, który chcesz transkrybować. Jeśli nagranie trwa dłużej niż ~30 sekund, skill automatycznie podzieli je na fragmenty.
Uruchom transkrypcję za pomocą bundled CLI. Dla szybkiej transkrypcji tekstu użyj domyślnych ustawień (model gpt-4o-mini-transcribe). Jeśli potrzebujesz rozpoznawania mówców, wskaż to życzenie — skill przełączy się na model gpt-4o-transcribe-diarize i zwróci wynik w formacie JSON z etykietami mówców.
Wyniki zostaną zapisane w katalogu output/transcribe/. Jeśli transkrybujesz wiele plików, użyj flagi --out-dir, aby uniknąć nadpisywania wyników.
Sprawdź jakość transkrypcji, etykiety mówców i granice segmentów. Jeśli potrzebujesz poprawy, poproś o pojedynczą, ukierunkowaną zmianę — skill obsługuje iteracyjne ulepszenia.