ai-multimodal

Name: ai-multimodal
Author: mrgoonie

autor: mrgoonie

Analizuj audio, wideo, zdjęcia i dokumenty za pomocą API Google Gemini

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: mrgoonie
Kategoria: Data Science
Wyświetlenia: 99

Repozytorium GitHub

O skillu

Umiejętność do przetwarzania i generowania treści multimedialnych. Transkrybujesz audio do 9,5 godziny z czasami, analizujesz obrazy (detekcja obiektów, OCR, odpowiadanie na pytania), przetwarzasz wideo do 6 godzin (w tym z YouTube), wyodrębniasz dane z PDF-ów (tabele, formularze, wykresy) i generujesz obrazy z tekstu. Obsługuje modele Gemini 2.5 i 2.0 z kontekstem do 2M tokenów.

Jak używać

Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.
Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.
Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.
Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.
Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.
Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.

Podobne skille

nano-banana-pro

autor: garg-aayush

Generuj i edytuj obrazy za pomocą API Gemini 3 Pro – od tekstowych opisów do modyfikacji istniejących plików

Data Science

535772

excalidraw

autor: ryanquinn3

Deleguj przetwarzanie diagramów Excalidraw agentom, aby zaoszczędzić kontekst

Data Science

124204

infographic-creation

autor: antvis

Przekształć tekst w piękne infografiki za pomocą szablonów i wizualizacji danych

Data Science

60199

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

codex

autor: Lucklyric

Zaawansowane rozumowanie AI do skomplikowanych zadań kodowania i architektury

Data Science

16163

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Data Science

31144