Toolverse
Wszystkie skille

vision-sandbox

autor: openclaw

Analizuj obrazy z precyzją dzięki kodowi wykonywanym w piaskownicy Gemini

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science

O skillu

Vision Sandbox to umiejętność agenta, która wykorzystuje natywny sandbox do wykonywania kodu w Gemini. Pozwala ci analizować obrazy z wysoką dokładnością — znajduj elementy interfejsu i zwracaj ich współrzędne, liczysz obiekty na zdjęciach, sprawdzasz nakładanie się elementów w layoutach. Model sam pisze i uruchamia kod Pythona w środowisku hostowanym przez Google, aby zweryfikować dane wizualne. Idealne do audytu interfejsów użytkownika, określania pozycji obiektów w przestrzeni i rozumowania wizualnego.

Jak używać

  1. Zainstaluj umiejętność za pomocą polecenia clawhub install vision-sandbox. Upewnij się, że masz zainstalowany narzędzie uv i ustawioną zmienną środowiskową GEMINI_API_KEY z kluczem API Gemini.

  2. Przygotuj obraz, który chcesz analizować — może to być zrzut ekranu, fotografia lub dowolny plik PNG. Zapamiętaj ścieżkę do pliku na twoim komputerze.

  3. Uruchom vision-sandbox z polecenia uv run vision-sandbox --image "ścieżka/do/obrazu.png" --prompt "twoja instrukcja". Zastąp ścieżkę rzeczywistą lokalizacją pliku.

  4. W parametrze prompt opisz, co chcesz zrobić. Na przykład: "Zlokalizuj przycisk 'Wyślij' i zwróć jego współrzędne [x, y] w skali [0, 1000]" do określenia pozycji elementu, "Policz liczbę elementów na liście" do liczenia obiektów, lub "Sprawdź, czy tekst nagłówka nakłada się na ikony" do audytu interfejsu.

  5. Model Gemini napisze i uruchomi kod Pythona w piaskownicy, aby przeanalizować obraz. Wynik będzie zawierać współrzędne, liczby lub informacje o nakładaniu się elementów — dokładnie to, o co poprosiłeś.

  6. Jeśli pracujesz z agentami kodującymi, możesz przekazać wynik JSON z metadanymi wizualnymi (współrzędne, rozmiary, kolory) do narzędzia takiego jak OpenCode, aby automatycznie generować lub poprawiać CSS i HTML na podstawie analizy.

Podobne skille