Toolverse
Wszystkie skille

siliconflow-vision

autor: openclaw

Rozpoznawanie i analiza obrazów dla agentów AI – integracja z SiliconFlow, OpenAI i Anthropic

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science

O skillu

Skill do rozpoznawania zawartości obrazów za pomocą modeli wizyjnych. Gdy użytkownik przesyła zdjęcie, agent główny automatycznie wywołuje ten skill, aby uzyskać szczegółowe i obiektywne wyniki rozpoznawania. Skill obsługuje wiele dostawców usług: SiliconFlow (domyślnie), OpenAI i Anthropic. Wyniki są przekazywane agentowi głównemu, który przeprowadza dalszą analizę i odpowiada na pytania użytkownika. Obsługuje tryby szybki, inteligentny i zbalansowany, dostosowane do różnych typów obrazów – od zdjęć codziennych po złożone wykresy i memy.

Jak używać

  1. Zainstaluj skill w swoim środowisku agenta Claude/Codex/Copilot, upewniając się, że masz dostęp do repozytorium openclaw/skills i folderu siliconflow-vision.

  2. Skonfiguruj klucze API w pliku config/default.json dla wybranego dostawcy usług. Domyślnie używany jest SiliconFlow z kluczem siliconflow_api_key, ale możesz również skonfigurować openai_api_key dla OpenAI lub anthropic_api_key dla Anthropic.

  3. Gdy użytkownik przesyła obraz, agent główny powinien automatycznie wywołać skill za pomocą polecenia: python scripts/analyze_image.py /ścieżka/do/obrazu.jpg

  4. Dla bardziej precyzyjnej analizy złożonych obrazów, wykresów lub memów użyj trybu inteligentnego: python scripts/analyze_image.py obraz.png -m smart. Tryb ten zajmuje więcej czasu (~2 minuty), ale zapewnia dokładniejsze wyniki.

  5. Jeśli chcesz dostosować pytanie do konkretnego zadania, dodaj parametr -q, na przykład: python scripts/analyze_image.py zdjęcie.jpg -q "Wyodrębnij cały tekst z obrazu". Możesz również użyć flagi -s dla skróconego wyjścia lub --provider openai aby zmienić dostawcę.

  6. Agent główny analizuje wyniki zwrócone przez skill i na ich podstawie udziela odpowiedzi użytkownikowi. Skill dostarcza tylko rozpoznawanie; analiza, wnioskowanie i odpowiadanie na pytania pozostają zadaniem agenta głównego.

Podobne skille