groq-core-workflow-b

Name: groq-core-workflow-b
Author: jeremylongshore

autor: jeremylongshore

Transkrypcja audio, analiza obrazów i synteza mowy z prędkością Groq — wszystko w jednym przepływie.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: jeremylongshore
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

Umożliwia transkrypcję plików audio (Whisper), analizę obrazów (Llama Vision) i konwersję tekstu na mowę za pomocą API Groq. Obsługuje ponad 100 języków, działa 216 razy szybciej niż czas rzeczywisty, a wszystkie modele korzystają z tego samego klienta SDK. Idealny dla automatyzacji przetwarzania multimediów w agentach Claude, Codex i OpenClaw.

Jak używać

Zainstaluj pakiet groq-sdk w swoim projekcie (npm install groq-sdk) i upewnij się, że zmienna środowiskowa GROQ_API_KEY jest ustawiona na Twój klucz API.
Aby transkrybować plik audio, przygotuj plik w jednym z obsługiwanych formatów (mp3, wav, m4a, ogg, flac, webm, mp4, mpeg, mpga). Skill automatycznie rozpozna żądanie transkrypcji po frazy takie jak "groq whisper", "groq transcription" lub "groq audio".
Użyj modelu whisper-large-v3-turbo do szybkiej transkrypcji lub whisper-large-v3 dla najwyższej dokładności. Model turbo pracuje 216 razy szybciej niż czas rzeczywisty, co czyni go idealnym dla dużych plików.
Dla transkrypcji z czasami (timestamps), wybierz format verbose_json zamiast zwykłego tekstu — otrzymasz dokładne znaczniki czasowe dla każdego segmentu.
Do analizy obrazów użyj modeli Llama 4 Scout lub Maverick, przekazując adresy URL lub obrazy zakodowane w base64. Trigger frazy to "groq vision" lub "groq image".
Dla syntezy mowy (text-to-speech) użyj frazy "groq TTS" lub "groq speech" — skill automatycznie przekonwertuje tekst na mowę za pomocą tego samego klienta SDK.

Podobne skille

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109