Toolverse
Wszystkie skille

groq-core-workflow-b

autor: jeremylongshore

Transkrypcja audio, analiza obrazów i synteza mowy z prędkością Groq — wszystko w jednym przepływie.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Umożliwia transkrypcję plików audio (Whisper), analizę obrazów (Llama Vision) i konwersję tekstu na mowę za pomocą API Groq. Obsługuje ponad 100 języków, działa 216 razy szybciej niż czas rzeczywisty, a wszystkie modele korzystają z tego samego klienta SDK. Idealny dla automatyzacji przetwarzania multimediów w agentach Claude, Codex i OpenClaw.

Jak używać

  1. Zainstaluj pakiet groq-sdk w swoim projekcie (npm install groq-sdk) i upewnij się, że zmienna środowiskowa GROQ_API_KEY jest ustawiona na Twój klucz API.

  2. Aby transkrybować plik audio, przygotuj plik w jednym z obsługiwanych formatów (mp3, wav, m4a, ogg, flac, webm, mp4, mpeg, mpga). Skill automatycznie rozpozna żądanie transkrypcji po frazy takie jak "groq whisper", "groq transcription" lub "groq audio".

  3. Użyj modelu whisper-large-v3-turbo do szybkiej transkrypcji lub whisper-large-v3 dla najwyższej dokładności. Model turbo pracuje 216 razy szybciej niż czas rzeczywisty, co czyni go idealnym dla dużych plików.

  4. Dla transkrypcji z czasami (timestamps), wybierz format verbose_json zamiast zwykłego tekstu — otrzymasz dokładne znaczniki czasowe dla każdego segmentu.

  5. Do analizy obrazów użyj modeli Llama 4 Scout lub Maverick, przekazując adresy URL lub obrazy zakodowane w base64. Trigger frazy to "groq vision" lub "groq image".

  6. Dla syntezy mowy (text-to-speech) użyj frazy "groq TTS" lub "groq speech" — skill automatycznie przekonwertuje tekst na mowę za pomocą tego samego klienta SDK.

Podobne skille