gemini-stt

Name: gemini-stt
Author: openclaw

autor: openclaw

Transkrypcja audio za pomocą Gemini API – szybko i bez dodatkowych bibliotek

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: openclaw
Kategoria: Data Science

Repozytorium GitHub

O skillu

Umiejętność transkrypcji plików audio przy użyciu Google Gemini API lub Vertex AI. Obsługuje popularne formaty: OGG, MP3, WAV i M4A. Domyślnie używa modelu gemini-2.0-flash-lite, który zapewnia najszybszą transkrypcję. Możesz wybrać między autentykacją przez Application Default Credentials (zalecane dla Vertex AI) a bezpośrednim kluczem API. Wymaga Python 3.10+ i nie potrzebuje żadnych zewnętrznych bibliotek – wszystko działa z wbudowanymi narzędziami.

Jak używać

Upewnij się, że masz zainstalowany Python 3.10 lub nowszy. Pobierz umiejętność z repozytorium openclaw i umieść ją w katalogu ~/.claude/skills/gemini-stt.
Skonfiguruj autentykację. Jeśli chcesz używać Vertex AI (zalecane), zaloguj się do gcloud: gcloud auth application-default login, a następnie ustaw projekt: gcloud config set project TWÓJ_ID_PROJEKTU. Alternatywnie, jeśli wolisz bezpośredni dostęp do Gemini API, ustaw zmienną środowiskową GEMINI_API_KEY w pliku ~/.env lub ~/.clawdbot/.env.
Przygotuj plik audio w jednym z obsługiwanych formatów: OGG, MP3, WAV lub M4A. Możesz użyć pliku lokalnego lub pliku z katalogu ~/.clawdbot/media/inbound/ (przydatne dla wiadomości głosowych z Telegramu).
Uruchom transkrypcję poleceniem: python ~/.claude/skills/gemini-stt/transcribe.py /ścieżka/do/pliku.ogg. Skrypt automatycznie wykryje dostępną metodę autentykacji (najpierw spróbuje ADC, potem klucz API).
Jeśli chcesz wymusić Vertex AI, dodaj flagę --vertex. Aby użyć innego modelu, dodaj --model gemini-2.5-pro. Dla Vertex AI możesz również określić projekt i region: --project mój-projekt --region us-central1.
Czekaj na wynik – transkrypcja pojawi się w konsoli. Możesz teraz użyć tekstu w swoim agencie lub zapisać go do pliku.

Podobne skille

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

threejs

autor: mrgoonie

Twórz interaktywne aplikacje 3D w przeglądarce z Three.js i WebGL

Data Science

1743

skill-creator

autor: anthropics

Twórz umiejętności dla Claude'a – rozszerz jego możliwości o specjalistyczną wiedzę i przepływy pracy

Data Science

59147

infographic-creation

autor: antvis

Przekształć tekst w piękne infografiki za pomocą szablonów i wizualizacji danych

Data Science

60199

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Data Science

31144

web-artifacts-builder

autor: anthropics

Twórz zaawansowane artefakty internetowe w Claude z React, Tailwind i shadcn/ui

Data Science

37124