llava

Name: llava
Author: zechenzhangAGI

autor: zechenzhangAGI

Rozmawiaj ze zdjęciami — model wizyjno-językowy do analizy obrazów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: zechenzhangAGI
Kategoria: Bezpieczeństwo
Wyświetlenia: 112

Repozytorium GitHub

O skillu

LLaVA to otwartoźródłowy model łączący widzenie komputerowe z przetwarzaniem języka naturalnego. Pozwala na wieloturowe rozmowy o obrazach, odpowiadanie na pytania dotyczące zdjęć i wykonywanie instrukcji wizyjnych. Wykorzystuje koder CLIP do analizy obrazów i modele LLaMA do generowania odpowiedzi. Idealny do budowania chatbotów opartych na obrazach, automatycznego opisywania zdjęć i zrozumienia dokumentów zawierających grafiki.

Jak używać

Sklonuj repozytorium LLaVA z GitHuba i przejdź do katalogu projektu za pomocą git clone.
Zainstaluj pakiet wraz z zależnościami (transformers, torch, pillow) uruchamiając pip install -e . w głównym katalogu.
Wczytaj wstępnie wytrenowany model, na przykład llava-v1.5-7b, używając funkcji load_pretrained_model z modułu llava.model.builder — podaj ścieżkę do modelu jako parametr model_path.
Przygotuj obraz do analizy — załaduj go za pomocą biblioteki PIL (Image.open) i przetwórz za pomocą funkcji process_images z llava.mm_utils.
Sformułuj pytanie lub instrukcję dotyczącą obrazu, a następnie przekaż obraz i tekst do modelu — model zwróci odpowiedź opisującą zawartość zdjęcia lub odpowiadającą na Twoje pytanie.
Możesz prowadzić wieloturową rozmowę, zadając kolejne pytania o ten sam obraz — model zachowuje kontekst poprzednich odpowiedzi.

Podobne skille

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

content-creator

autor: alirezarezvani

Twórz treści SEO z konsystentnym głosem marki – analizator, optymalizator i szablony w jednym

Bezpieczeństwo

25124

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115