Toolverse
Wszystkie skille

clip

autor: davila7

Rozpoznawaj obrazy z tekstu – bez trenowania modelu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

CLIP to model OpenAI łączący widzenie i język naturalny. Pozwala na klasyfikację obrazów bez danych treningowych, dopasowywanie obrazów do tekstu i wyszukiwanie semantyczne. Wytrenowany na 400 milionach par obraz-tekst, nadaje się do moderacji treści, wyszukiwania obrazów i zadań multimodalnych. Działa od razu bez dostrajania – idealny do ogólnego rozumienia obrazów.

Jak używać

  1. Zainstaluj CLIP i wymagane zależności, uruchamiając w terminalu: pip install git+https://github.com/openai/CLIP.git, a następnie pip install torch torchvision ftfy regex tqdm. Proces może potrwać kilka minut w zależności od szybkości połączenia.

  2. Przygotuj obraz, który chcesz analizować – zapisz go w formacie JPG lub PNG w dostępnym katalogu (np. photo.jpg w bieżącym folderze projektu).

  3. Załaduj model CLIP w swoim skrypcie Pythona, wybierając wariant ViT-B/32 (szybki i lekki) lub inny dostępny model. Kod automatycznie użyje GPU (CUDA) jeśli jest dostępne, w przeciwnym razie CPU.

  4. Zdefiniuj listę możliwych etykiet tekstowych, które chcesz porównać z obrazem – na przykład ["pies", "kot", "ptak", "samochód"]. Im bardziej konkretne opisy, tym lepsze wyniki.

  5. Przetwórz obraz za pomocą funkcji preprocess, a następnie oblicz podobieństwo między cechami obrazu a cechami tekstu, korzystając z wbudowanej funkcji cosine similarity modelu.

  6. Wyniki zawierają prawdopodobieństwa dla każdej etykiety – wybierz tę z najwyższym wynikiem jako klasyfikację obrazu. Możesz też użyć tego podejścia do wyszukiwania semantycznego, moderacji treści lub dopasowywania obrazów do opisów tekstowych.

Podobne skille