ai-multimodal
Analizuj audio, wideo, zdjęcia i dokumenty za pomocą API Google Gemini
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do przetwarzania i generowania treści multimedialnych. Transkrybujesz audio do 9,5 godziny z czasami, analizujesz obrazy (detekcja obiektów, OCR, odpowiadanie na pytania), przetwarzasz wideo do 6 godzin (w tym z YouTube), wyodrębniasz dane z PDF-ów (tabele, formularze, wykresy) i generujesz obrazy z tekstu. Obsługuje modele Gemini 2.5 i 2.0 z kontekstem do 2M tokenów.
Jak używać
Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.
Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.
Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.
Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.
Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.
Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.