Toolverse
Wszystkie skille

parakeet-stt

autor: openclaw

Transkrypcja mowy na tekst lokalnie — 30x szybciej niż Whisper, bez chmury

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps
Wyświetlenia
8

O skillu

Zamień nagrania audio na tekst bezpośrednio na swoim komputerze. Parakeet to lekki model NVIDIA (0.6B v3) działający na CPU bez GPU — nie potrzebujesz internetu ani subskrypcji. Obsługuje 25 języków z automatycznym rozpoznawaniem, zwraca tekst, znaczniki czasowe lub napisy SRT. API kompatybilne z OpenAI, więc łatwo zintegrujesz z istniejącym kodem.

Jak używać

  1. Zainstaluj narzędzie: sklonuj repozytorium git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git, przejdź do katalogu i uruchom docker compose up -d parakeet-cpu. Alternatywnie zainstaluj zależności (pip install -r requirements.txt) i uruchom serwer: uvicorn app.main:app --host 0.0.0.0 --port 5000.

  2. Sprawdź, że serwer słucha na porcie 5000 (lub ustaw zmienną PARAKEET_URL na inny adres, np. http://localhost:5092).

  3. Przygotuj plik audio (MP3, WAV lub inny obsługiwany format) i wyślij go do API. Użyj curl: curl -X POST http://localhost:5000/v1/audio/transcriptions -F "file=@/path/to/audio.mp3" -F "response_format=text" — otrzymasz czysty tekst transkrypcji.

  4. Jeśli potrzebujesz znaczników czasowych, zmień response_format na verbose_json. Dla napisów SRT użyj response_format=srt.

  5. W Pythonie użyj biblioteki OpenAI: zaimportuj OpenAI, utwórz klienta z base_url wskazującym na Twój serwer Parakeet i wywołaj client.audio.transcriptions.create() z plikiem audio — model automatycznie rozpozna język i zwróci transkrypcję.

Podobne skille