vision-sandbox
Analizuj obrazy z precyzją dzięki kodowi wykonywanym w piaskownicy Gemini
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Vision Sandbox to umiejętność agenta, która wykorzystuje natywny sandbox do wykonywania kodu w Gemini. Pozwala ci analizować obrazy z wysoką dokładnością — znajduj elementy interfejsu i zwracaj ich współrzędne, liczysz obiekty na zdjęciach, sprawdzasz nakładanie się elementów w layoutach. Model sam pisze i uruchamia kod Pythona w środowisku hostowanym przez Google, aby zweryfikować dane wizualne. Idealne do audytu interfejsów użytkownika, określania pozycji obiektów w przestrzeni i rozumowania wizualnego.
Jak używać
Zainstaluj umiejętność za pomocą polecenia clawhub install vision-sandbox. Upewnij się, że masz zainstalowany narzędzie uv i ustawioną zmienną środowiskową GEMINI_API_KEY z kluczem API Gemini.
Przygotuj obraz, który chcesz analizować — może to być zrzut ekranu, fotografia lub dowolny plik PNG. Zapamiętaj ścieżkę do pliku na twoim komputerze.
Uruchom vision-sandbox z polecenia uv run vision-sandbox --image "ścieżka/do/obrazu.png" --prompt "twoja instrukcja". Zastąp ścieżkę rzeczywistą lokalizacją pliku.
W parametrze prompt opisz, co chcesz zrobić. Na przykład: "Zlokalizuj przycisk 'Wyślij' i zwróć jego współrzędne [x, y] w skali [0, 1000]" do określenia pozycji elementu, "Policz liczbę elementów na liście" do liczenia obiektów, lub "Sprawdź, czy tekst nagłówka nakłada się na ikony" do audytu interfejsu.
Model Gemini napisze i uruchomi kod Pythona w piaskownicy, aby przeanalizować obraz. Wynik będzie zawierać współrzędne, liczby lub informacje o nakładaniu się elementów — dokładnie to, o co poprosiłeś.
Jeśli pracujesz z agentami kodującymi, możesz przekazać wynik JSON z metadanymi wizualnymi (współrzędne, rozmiary, kolory) do narzędzia takiego jak OpenCode, aby automatycznie generować lub poprawiać CSS i HTML na podstawie analizy.