vision-sandbox

Name: vision-sandbox
Author: openclaw

autor: openclaw

Analizuj obrazy z precyzją dzięki kodowi wykonywanym w piaskownicy Gemini

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: openclaw
Kategoria: Data Science

Repozytorium GitHub

O skillu

Vision Sandbox to umiejętność agenta, która wykorzystuje natywny sandbox do wykonywania kodu w Gemini. Pozwala ci analizować obrazy z wysoką dokładnością — znajduj elementy interfejsu i zwracaj ich współrzędne, liczysz obiekty na zdjęciach, sprawdzasz nakładanie się elementów w layoutach. Model sam pisze i uruchamia kod Pythona w środowisku hostowanym przez Google, aby zweryfikować dane wizualne. Idealne do audytu interfejsów użytkownika, określania pozycji obiektów w przestrzeni i rozumowania wizualnego.

Jak używać

Zainstaluj umiejętność za pomocą polecenia clawhub install vision-sandbox. Upewnij się, że masz zainstalowany narzędzie uv i ustawioną zmienną środowiskową GEMINI_API_KEY z kluczem API Gemini.
Przygotuj obraz, który chcesz analizować — może to być zrzut ekranu, fotografia lub dowolny plik PNG. Zapamiętaj ścieżkę do pliku na twoim komputerze.
Uruchom vision-sandbox z polecenia uv run vision-sandbox --image "ścieżka/do/obrazu.png" --prompt "twoja instrukcja". Zastąp ścieżkę rzeczywistą lokalizacją pliku.
W parametrze prompt opisz, co chcesz zrobić. Na przykład: "Zlokalizuj przycisk 'Wyślij' i zwróć jego współrzędne [x, y] w skali [0, 1000]" do określenia pozycji elementu, "Policz liczbę elementów na liście" do liczenia obiektów, lub "Sprawdź, czy tekst nagłówka nakłada się na ikony" do audytu interfejsu.
Model Gemini napisze i uruchomi kod Pythona w piaskownicy, aby przeanalizować obraz. Wynik będzie zawierać współrzędne, liczby lub informacje o nakładaniu się elementów — dokładnie to, o co poprosiłeś.
Jeśli pracujesz z agentami kodującymi, możesz przekazać wynik JSON z metadanymi wizualnymi (współrzędne, rozmiary, kolory) do narzędzia takiego jak OpenCode, aby automatycznie generować lub poprawiać CSS i HTML na podstawie analizy.

Podobne skille

deep-research

autor: davidorex

Automatyczne badanie złożonych problemów w VCV Rack — od szybkiej analizy do głębokich poszukiwań

Data Science

16151

pptx

autor: anthropics

Twórz, edytuj i analizuj prezentacje PowerPoint bezpośrednio w Claude'u

Data Science

134310

infographic-creation

autor: antvis

Przekształć tekst w piękne infografiki za pomocą szablonów i wizualizacji danych

Data Science

60199

notebooklm

autor: leegonzales

Zadawaj pytania swoim dokumentom w NotebookLM i otrzymuj odpowiedzi z cytowaniem źródeł, bez halucynacji.

Data Science

142112

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

docx

autor: anthropics

Twórz, edytuj i analizuj dokumenty Word z pełną kontrolą zmian i komentarzy

Data Science

39142