groq-core-workflow-b
Transkrypcja audio, analiza obrazów i synteza mowy z prędkością Groq — wszystko w jednym przepływie.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia transkrypcję plików audio (Whisper), analizę obrazów (Llama Vision) i konwersję tekstu na mowę za pomocą API Groq. Obsługuje ponad 100 języków, działa 216 razy szybciej niż czas rzeczywisty, a wszystkie modele korzystają z tego samego klienta SDK. Idealny dla automatyzacji przetwarzania multimediów w agentach Claude, Codex i OpenClaw.
Jak używać
Zainstaluj pakiet groq-sdk w swoim projekcie (npm install groq-sdk) i upewnij się, że zmienna środowiskowa GROQ_API_KEY jest ustawiona na Twój klucz API.
Aby transkrybować plik audio, przygotuj plik w jednym z obsługiwanych formatów (mp3, wav, m4a, ogg, flac, webm, mp4, mpeg, mpga). Skill automatycznie rozpozna żądanie transkrypcji po frazy takie jak "groq whisper", "groq transcription" lub "groq audio".
Użyj modelu whisper-large-v3-turbo do szybkiej transkrypcji lub whisper-large-v3 dla najwyższej dokładności. Model turbo pracuje 216 razy szybciej niż czas rzeczywisty, co czyni go idealnym dla dużych plików.
Dla transkrypcji z czasami (timestamps), wybierz format verbose_json zamiast zwykłego tekstu — otrzymasz dokładne znaczniki czasowe dla każdego segmentu.
Do analizy obrazów użyj modeli Llama 4 Scout lub Maverick, przekazując adresy URL lub obrazy zakodowane w base64. Trigger frazy to "groq vision" lub "groq image".
Dla syntezy mowy (text-to-speech) użyj frazy "groq TTS" lub "groq speech" — skill automatycznie przekonwertuje tekst na mowę za pomocą tego samego klienta SDK.
Podobne skille
feishu-docs
autor: openclaw
architect-review
autor: sickn33
brand-voice
autor: anthropics
better-auth-best-practices
autor: novuhq
software-security
autor: project-codeguard
openapi-spec-generation
autor: wshobson