clip

Name: clip
Author: davila7

autor: davila7

Rozpoznawaj obrazy z tekstu – bez trenowania modelu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

CLIP to model OpenAI łączący widzenie i język naturalny. Pozwala na klasyfikację obrazów bez danych treningowych, dopasowywanie obrazów do tekstu i wyszukiwanie semantyczne. Wytrenowany na 400 milionach par obraz-tekst, nadaje się do moderacji treści, wyszukiwania obrazów i zadań multimodalnych. Działa od razu bez dostrajania – idealny do ogólnego rozumienia obrazów.

Jak używać

Zainstaluj CLIP i wymagane zależności, uruchamiając w terminalu: pip install git+https://github.com/openai/CLIP.git, a następnie pip install torch torchvision ftfy regex tqdm. Proces może potrwać kilka minut w zależności od szybkości połączenia.
Przygotuj obraz, który chcesz analizować – zapisz go w formacie JPG lub PNG w dostępnym katalogu (np. photo.jpg w bieżącym folderze projektu).
Załaduj model CLIP w swoim skrypcie Pythona, wybierając wariant ViT-B/32 (szybki i lekki) lub inny dostępny model. Kod automatycznie użyje GPU (CUDA) jeśli jest dostępne, w przeciwnym razie CPU.
Zdefiniuj listę możliwych etykiet tekstowych, które chcesz porównać z obrazem – na przykład ["pies", "kot", "ptak", "samochód"]. Im bardziej konkretne opisy, tym lepsze wyniki.
Przetwórz obraz za pomocą funkcji preprocess, a następnie oblicz podobieństwo między cechami obrazu a cechami tekstu, korzystając z wbudowanej funkcji cosine similarity modelu.
Wyniki zawierają prawdopodobieństwa dla każdej etykiety – wybierz tę z najwyższym wynikiem jako klasyfikację obrazu. Możesz też użyć tego podejścia do wyszukiwania semantycznego, moderacji treści lub dopasowywania obrazów do opisów tekstowych.

Podobne skille

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

obsidian

autor: gapmiss

Kompletny przewodnik tworzenia wtyczek Obsidian z regułami ESLint i best practices

Bezpieczeństwo

14111

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574