Toolverse
Wszystkie skille

openai-whisper-api

autor: openclaw

Transkrypcja audio za pomocą Whisper API – zamień nagrania na tekst w sekundach

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
22

O skillu

Umożliwia transkrypcję plików audio bezpośrednio przez API Whisper od OpenAI. Obsługuje wiele formatów audio (m4a, ogg i inne), automatycznie konwertuje mowę na tekst z wysoką dokładnością. Możesz określić język, dodać podpowiedzi dla nazw mówców lub uzyskać wynik w formacie JSON. Idealne do przetwarzania nagrań, rozmów, wykładów czy materiałów wideo. Wymaga klucza API OpenAI i narzędzia curl.

Jak używać

  1. Zainstaluj wymagane zależności: upewnij się, że masz zainstalowany curl oraz dostęp do klucza API OpenAI (możesz go uzyskać na platform.openai.com).

  2. Skonfiguruj klucz API, ustawiając zmienną środowiskową OPENAI_API_KEY lub dodając go do pliku ~/.openclaw/openclaw.json w sekcji skills > openai-whisper-api > apiKey.

  3. Przygotuj plik audio do transkrypcji – obsługiwane są formaty takie jak m4a, ogg i inne popularne formaty audio.

  4. Uruchom transkrypcję za pomocą skryptu: {baseDir}/scripts/transcribe.sh /ścieżka/do/audio.m4a. Wynik zostanie zapisany automatycznie jako plik tekstowy o nazwie opartej na nazwie wejściowego pliku audio.

  5. Dostosuj transkrypcję za pomocą dodatkowych flag: użyj --language en aby określić język, --prompt "Imiona: Jan, Maria" aby poprawić rozpoznawanie nazw, lub --json --out /tmp/transcript.json aby uzyskać wynik w formacie JSON zamiast zwykłego tekstu.

  6. Sprawdź wygenerowany plik tekstowy – zawiera pełną transkrypcję audio z modelu whisper-1.

Podobne skille