google-gemini-media

Name: google-gemini-media
Author: openclaw

autor: openclaw

Generuj i analizuj obrazy, wideo i mowę za pomocą API Gemini w jednym przepływie

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: openclaw
Kategoria: Data Science
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Umiejętność integrująca sześć możliwości API Gemini: generowanie obrazów (Nano Banana), rozumienie obrazów, tworzenie wideo (Veo 3.1), analizę wideo, syntezę mowy i rozpoznawanie audio. Otrzymujesz gotowe szablony kodu do budowania kompleksowych przepływów multimodalnych — od tekstu do obrazu, od wideo do transkrypcji, od opisu audio do generacji mowy. Obsługuje iteracyjne edytowanie, porównywanie obrazów, pytania do wideo z czasownikami, kontrolę tempa i tonu mowy.

Jak używać

Zainstaluj umiejętność w swoim projekcie, korzystając z oficjalnego SDK Google Gen AI dla Node.js lub REST API. Upewnij się, że masz dostęp do klucza API Gemini.
Określ, jaką operację multimodalną chcesz wykonać: generowanie obrazów, analizę obrazów, tworzenie wideo, analizę wideo, generowanie mowy lub rozpoznawanie audio. Umiejętność zawiera dedykowany przepływ dla każdej z nich.
Do generowania obrazów użyj Nano Banana — przekaż tekst lub obraz do edycji, a otrzymasz obraz wyjściowy. Możesz iterować wielokrotnie, modyfikując prompt lub istniejący obraz.
Do analizy obrazów lub wideo przygotuj zawartość (plik, URL lub dane inline) i sformułuj pytanie — API zwróci opis, odpowiedzi na pytania, transkrypcję lub podsumowanie z czasownikami.
Do generowania wideo użyj Veo 3.1 — podaj tekst, wybierz proporcje i rozdzielczość, opcjonalnie dodaj obraz referencyjny lub określ pierwszą i ostatnią klatkę. Wideo będzie zawierać natywny dźwięk.
Do pracy z mową: generuj mowę z tekstu, kontrolując styl, akcent, tempo i ton, lub prześlij audio do transkrypcji, opisu lub zliczenia tokenów. Wszystkie szablony kodu znajdują się w repozytorium — mapuj strukturę żądań i wybór modelu na swoją warstwę implementacji.

Podobne skille

data-storytelling

autor: wshobson

Zamień dane w przekonujące opowieści dla decydentów i inwestorów

Data Science

26105

market-analysis

autor: xbklairith

Analiza rynków z wskaźnikami technicznymi, wsparciem i oporem, trendami multi-timeframe

Data Science

29144

arxiv-search

autor: langchain-ai

Przeszukuj arXiv i znajdź najnowsze prace badawcze z fizyki, matematyki i informatyki

Data Science

76172

xlsx

autor: anthropics

Twórz, edytuj i analizuj arkusze kalkulacyjne z formułami i wykresami

Data Science

40128

excalidraw

autor: ryanquinn3

Deleguj przetwarzanie diagramów Excalidraw agentom, aby zaoszczędzić kontekst

Data Science

124204

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Data Science

31144