Toolverse
Wszystkie skille

openrouter-transcribe

autor: openclaw

Transkrypcja audio przez OpenRouter – obsługuje Gemini, GPT-4o i inne modele audio

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
12

O skillu

Umożliwia transkrypcję plików audio za pomocą API OpenRouter i modeli obsługujących audio, takich jak Gemini 2.5 Flash czy GPT-4o-audio. Narzędzie automatycznie konwertuje plik do formatu WAV, koduje go w base64 i wysyła do OpenRouter w celu uzyskania transkrypcji. Możesz wybrać dowolny model audio dostępny w OpenRouter, dostosować instrukcje transkrypcji, zapisać wynik do pliku lub śledzić użycie za pomocą niestandardowego identyfikatora w panelu OpenRouter. Wymaga zainstalowania ffmpeg, curl, base64 i jq.

Jak używać

  1. Ustaw zmienną środowiskową OPENROUTER_API_KEY na Twój klucz API OpenRouter, lub skonfiguruj go w pliku ~/.clawdbot/clawdbot.json w sekcji skills.openrouter-transcribe.apiKey.

  2. Upewnij się, że masz zainstalowane wymagane narzędzia: ffmpeg, curl, base64 i jq. Są one niezbędne do konwersji audio, kodowania i komunikacji z API.

  3. Uruchom podstawową transkrypcję, podając ścieżkę do pliku audio: {baseDir}/scripts/transcribe.sh /ścieżka/do/audio.m4a. Wynik pojawi się w standardowym wyjściu (stdout).

  4. Aby użyć inny model, dodaj flagę --model, na przykład: {baseDir}/scripts/transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview. Domyślnie używany jest google/gemini-2.5-flash.

  5. Jeśli chcesz dostosować instrukcje transkrypcji, użyj flagi --prompt: {baseDir}/scripts/transcribe.sh audio.m4a --prompt "Transkrybuj ze wskazaniem mówców". Aby zapisać wynik do pliku zamiast wyświetlać go na ekranie, dodaj flagę --out: {baseDir}/scripts/transcribe.sh audio.m4a --out /tmp/transkrypcja.txt.

  6. Opcjonalnie możesz dodać flagę --title, aby ustawić niestandardowy identyfikator w panelu OpenRouter: {baseDir}/scripts/transcribe.sh audio.m4a --title "MojaAplikacja". Skrypt automatycznie konwertuje audio do WAV (mono, 16 kHz), koduje je w base64 i wysyła do OpenRouter, a następnie wyodrębnia transkrypcję z odpowiedzi.

Podobne skille