google-gemini-media
Generuj i analizuj obrazy, wideo i mowę za pomocą API Gemini w jednym przepływie
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność integrująca sześć możliwości API Gemini: generowanie obrazów (Nano Banana), rozumienie obrazów, tworzenie wideo (Veo 3.1), analizę wideo, syntezę mowy i rozpoznawanie audio. Otrzymujesz gotowe szablony kodu do budowania kompleksowych przepływów multimodalnych — od tekstu do obrazu, od wideo do transkrypcji, od opisu audio do generacji mowy. Obsługuje iteracyjne edytowanie, porównywanie obrazów, pytania do wideo z czasownikami, kontrolę tempa i tonu mowy.
Jak używać
Zainstaluj umiejętność w swoim projekcie, korzystając z oficjalnego SDK Google Gen AI dla Node.js lub REST API. Upewnij się, że masz dostęp do klucza API Gemini.
Określ, jaką operację multimodalną chcesz wykonać: generowanie obrazów, analizę obrazów, tworzenie wideo, analizę wideo, generowanie mowy lub rozpoznawanie audio. Umiejętność zawiera dedykowany przepływ dla każdej z nich.
Do generowania obrazów użyj Nano Banana — przekaż tekst lub obraz do edycji, a otrzymasz obraz wyjściowy. Możesz iterować wielokrotnie, modyfikując prompt lub istniejący obraz.
Do analizy obrazów lub wideo przygotuj zawartość (plik, URL lub dane inline) i sformułuj pytanie — API zwróci opis, odpowiedzi na pytania, transkrypcję lub podsumowanie z czasownikami.
Do generowania wideo użyj Veo 3.1 — podaj tekst, wybierz proporcje i rozdzielczość, opcjonalnie dodaj obraz referencyjny lub określ pierwszą i ostatnią klatkę. Wideo będzie zawierać natywny dźwięk.
Do pracy z mową: generuj mowę z tekstu, kontrolując styl, akcent, tempo i ton, lub prześlij audio do transkrypcji, opisu lub zliczenia tokenów. Wszystkie szablony kodu znajdują się w repozytorium — mapuj strukturę żądań i wybór modelu na swoją warstwę implementacji.