Toolverse
Wszystkie skille

ai-multimodal

autor: mrgoonie

Analizuj audio, wideo, zdjęcia i dokumenty za pomocą API Google Gemini

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
99

O skillu

Umiejętność do przetwarzania i generowania treści multimedialnych. Transkrybujesz audio do 9,5 godziny z czasami, analizujesz obrazy (detekcja obiektów, OCR, odpowiadanie na pytania), przetwarzasz wideo do 6 godzin (w tym z YouTube), wyodrębniasz dane z PDF-ów (tabele, formularze, wykresy) i generujesz obrazy z tekstu. Obsługuje modele Gemini 2.5 i 2.0 z kontekstem do 2M tokenów.

Jak używać

  1. Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.

  2. Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.

  3. Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.

  4. Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.

  5. Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.

  6. Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.

Podobne skille