gemini-stt
Transkrypcja audio za pomocą Gemini API – szybko i bez dodatkowych bibliotek
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność transkrypcji plików audio przy użyciu Google Gemini API lub Vertex AI. Obsługuje popularne formaty: OGG, MP3, WAV i M4A. Domyślnie używa modelu gemini-2.0-flash-lite, który zapewnia najszybszą transkrypcję. Możesz wybrać między autentykacją przez Application Default Credentials (zalecane dla Vertex AI) a bezpośrednim kluczem API. Wymaga Python 3.10+ i nie potrzebuje żadnych zewnętrznych bibliotek – wszystko działa z wbudowanymi narzędziami.
Jak używać
Upewnij się, że masz zainstalowany Python 3.10 lub nowszy. Pobierz umiejętność z repozytorium openclaw i umieść ją w katalogu ~/.claude/skills/gemini-stt.
Skonfiguruj autentykację. Jeśli chcesz używać Vertex AI (zalecane), zaloguj się do gcloud: gcloud auth application-default login, a następnie ustaw projekt: gcloud config set project TWÓJ_ID_PROJEKTU. Alternatywnie, jeśli wolisz bezpośredni dostęp do Gemini API, ustaw zmienną środowiskową GEMINI_API_KEY w pliku ~/.env lub ~/.clawdbot/.env.
Przygotuj plik audio w jednym z obsługiwanych formatów: OGG, MP3, WAV lub M4A. Możesz użyć pliku lokalnego lub pliku z katalogu ~/.clawdbot/media/inbound/ (przydatne dla wiadomości głosowych z Telegramu).
Uruchom transkrypcję poleceniem: python ~/.claude/skills/gemini-stt/transcribe.py /ścieżka/do/pliku.ogg. Skrypt automatycznie wykryje dostępną metodę autentykacji (najpierw spróbuje ADC, potem klucz API).
Jeśli chcesz wymusić Vertex AI, dodaj flagę --vertex. Aby użyć innego modelu, dodaj --model gemini-2.5-pro. Dla Vertex AI możesz również określić projekt i region: --project mój-projekt --region us-central1.
Czekaj na wynik – transkrypcja pojawi się w konsoli. Możesz teraz użyć tekstu w swoim agencie lub zapisać go do pliku.