Toolverse
Wszystkie skille

gemini-stt

autor: openclaw

Transkrypcja audio za pomocą Gemini API – szybko i bez dodatkowych bibliotek

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science

O skillu

Umiejętność transkrypcji plików audio przy użyciu Google Gemini API lub Vertex AI. Obsługuje popularne formaty: OGG, MP3, WAV i M4A. Domyślnie używa modelu gemini-2.0-flash-lite, który zapewnia najszybszą transkrypcję. Możesz wybrać między autentykacją przez Application Default Credentials (zalecane dla Vertex AI) a bezpośrednim kluczem API. Wymaga Python 3.10+ i nie potrzebuje żadnych zewnętrznych bibliotek – wszystko działa z wbudowanymi narzędziami.

Jak używać

  1. Upewnij się, że masz zainstalowany Python 3.10 lub nowszy. Pobierz umiejętność z repozytorium openclaw i umieść ją w katalogu ~/.claude/skills/gemini-stt.

  2. Skonfiguruj autentykację. Jeśli chcesz używać Vertex AI (zalecane), zaloguj się do gcloud: gcloud auth application-default login, a następnie ustaw projekt: gcloud config set project TWÓJ_ID_PROJEKTU. Alternatywnie, jeśli wolisz bezpośredni dostęp do Gemini API, ustaw zmienną środowiskową GEMINI_API_KEY w pliku ~/.env lub ~/.clawdbot/.env.

  3. Przygotuj plik audio w jednym z obsługiwanych formatów: OGG, MP3, WAV lub M4A. Możesz użyć pliku lokalnego lub pliku z katalogu ~/.clawdbot/media/inbound/ (przydatne dla wiadomości głosowych z Telegramu).

  4. Uruchom transkrypcję poleceniem: python ~/.claude/skills/gemini-stt/transcribe.py /ścieżka/do/pliku.ogg. Skrypt automatycznie wykryje dostępną metodę autentykacji (najpierw spróbuje ADC, potem klucz API).

  5. Jeśli chcesz wymusić Vertex AI, dodaj flagę --vertex. Aby użyć innego modelu, dodaj --model gemini-2.5-pro. Dla Vertex AI możesz również określić projekt i region: --project mój-projekt --region us-central1.

  6. Czekaj na wynik – transkrypcja pojawi się w konsoli. Możesz teraz użyć tekstu w swoim agencie lub zapisać go do pliku.

Podobne skille