linux-gui-control
Automatyzuj interakcje z aplikacjami Linux'a — klikaj, pisz i zarządzaj oknami bez przeglądarki.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do sterowania graficznym interfejsem pulpitu Linux za pomocą xdotool, wmctrl i dogtail. Pozwala na automatyzację pracy z aplikacjami spoza przeglądarki — symulowanie kliknięć i wpisywania tekstu, zmianę rozmiaru i pozycji okien, odczytywanie struktury interfejsu użytkownika oraz robienie zrzutów ekranu do analizy wizualnej. Idealna, gdy potrzebujesz kontrolować aplikacje desktopowe na X11 i GNOME.
Jak używać
Zainstaluj umiejętność w swoim środowisku agenta (sklonuj repozytorium i dodaj do katalogu skills).
Zidentyfikuj okno docelowe, uruchamiając wmctrl -l — wyświetli listę wszystkich otwartych okien z ich nazwami.
Dla aplikacji wspierających dostępność (aplikacje GNOME, Electron z flagą --force-renderer-accessibility) uruchom skrypt inspekcji, aby odczytać strukturę przycisków i pól wejściowych bez robienia zrzutów: python3 scripts/inspect_ui.py "nazwa_aplikacji".
Wykonuj akcje za pomocą skryptów pomocniczych — aktywuj okno (./scripts/gui_action.sh activate "nazwa_okna"), klikaj w współrzędne (./scripts/gui_action.sh click 500 500), pisz tekst (./scripts/gui_action.sh type "Twój tekst") lub naciskaj klawisze (./scripts/gui_action.sh key "Return").
Jeśli inspekcja tekstowa zawiedzie, zrób zrzut ekranu i użyj analizy wizualnej do identyfikacji elementów interfejsu.
Dla aplikacji Electron (VS Code, Discord, Chrome), które nie ujawniają struktury UI, zamknij aplikację i uruchom ją z flagą --force-renderer-accessibility, aby włączyć dostępność.