Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
CLIP to model OpenAI łączący widzenie i język naturalny. Pozwala na klasyfikację obrazów bez danych treningowych, dopasowywanie obrazów do tekstu i wyszukiwanie semantyczne. Wytrenowany na 400 milionach par obraz-tekst, nadaje się do moderacji treści, wyszukiwania obrazów i zadań multimodalnych. Działa od razu bez dostrajania – idealny do ogólnego rozumienia obrazów.
Jak używać
Zainstaluj CLIP i wymagane zależności, uruchamiając w terminalu: pip install git+https://github.com/openai/CLIP.git, a następnie pip install torch torchvision ftfy regex tqdm. Proces może potrwać kilka minut w zależności od szybkości połączenia.
Przygotuj obraz, który chcesz analizować – zapisz go w formacie JPG lub PNG w dostępnym katalogu (np. photo.jpg w bieżącym folderze projektu).
Załaduj model CLIP w swoim skrypcie Pythona, wybierając wariant ViT-B/32 (szybki i lekki) lub inny dostępny model. Kod automatycznie użyje GPU (CUDA) jeśli jest dostępne, w przeciwnym razie CPU.
Zdefiniuj listę możliwych etykiet tekstowych, które chcesz porównać z obrazem – na przykład ["pies", "kot", "ptak", "samochód"]. Im bardziej konkretne opisy, tym lepsze wyniki.
Przetwórz obraz za pomocą funkcji preprocess, a następnie oblicz podobieństwo między cechami obrazu a cechami tekstu, korzystając z wbudowanej funkcji cosine similarity modelu.
Wyniki zawierają prawdopodobieństwa dla każdej etykiety – wybierz tę z najwyższym wynikiem jako klasyfikację obrazu. Możesz też użyć tego podejścia do wyszukiwania semantycznego, moderacji treści lub dopasowywania obrazów do opisów tekstowych.