parakeet-stt
Transkrypcja mowy na tekst lokalnie — 30x szybciej niż Whisper, bez chmury
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Zamień nagrania audio na tekst bezpośrednio na swoim komputerze. Parakeet to lekki model NVIDIA (0.6B v3) działający na CPU bez GPU — nie potrzebujesz internetu ani subskrypcji. Obsługuje 25 języków z automatycznym rozpoznawaniem, zwraca tekst, znaczniki czasowe lub napisy SRT. API kompatybilne z OpenAI, więc łatwo zintegrujesz z istniejącym kodem.
Jak używać
Zainstaluj narzędzie: sklonuj repozytorium
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git, przejdź do katalogu i uruchomdocker compose up -d parakeet-cpu. Alternatywnie zainstaluj zależności (pip install -r requirements.txt) i uruchom serwer:uvicorn app.main:app --host 0.0.0.0 --port 5000.Sprawdź, że serwer słucha na porcie 5000 (lub ustaw zmienną
PARAKEET_URLna inny adres, np.http://localhost:5092).Przygotuj plik audio (MP3, WAV lub inny obsługiwany format) i wyślij go do API. Użyj curl:
curl -X POST http://localhost:5000/v1/audio/transcriptions -F "file=@/path/to/audio.mp3" -F "response_format=text"— otrzymasz czysty tekst transkrypcji.Jeśli potrzebujesz znaczników czasowych, zmień
response_formatnaverbose_json. Dla napisów SRT użyjresponse_format=srt.W Pythonie użyj biblioteki OpenAI: zaimportuj
OpenAI, utwórz klienta zbase_urlwskazującym na Twój serwer Parakeet i wywołajclient.audio.transcriptions.create()z plikiem audio — model automatycznie rozpozna język i zwróci transkrypcję.