Toolverse
Wszystkie skille

computer-use-agents

autor: davila7

Agenty AI sterujące komputerem jak człowiek – czytają ekran, klikają i piszą

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
30

O skillu

Umożliwia budowanie agentów AI, które wchodzą w interakcję z interfejsami graficznymi poprzez widzenie ekranu, sterowanie kursorem, klikanie przycisków i pisanie tekstu. Skill obejmuje implementacje Anthropic Computer Use, OpenAI Operator oraz rozwiązania open-source, ze szczególnym naciskiem na bezpieczeństwo, izolację środowiska i obsługę wyzwań związanych z kontrolą opartą na wizji. Idealne do automatyzacji pulpitu, sterowania ekranem i GUI automation.

Jak używać

  1. Zainstaluj wymagane zależności: bibliotekę Anthropic SDK, PIL do przetwarzania obrazów oraz pyautogui do sterowania myszą i klawiaturą. Upewnij się, że masz dostęp do klucza API Anthropic.

  2. Zaimportuj klasę ComputerUseAgent z umiejętności i zainicjuj ją, przekazując klienta Anthropic oraz wybrany model (domyślnie claude-sonnet-4-20250514). Ustaw maksymalną liczbę kroków (max_steps) aby zapobiec nieskończonym pętlom – domyślnie 50 iteracji.

  3. Zaimplementuj pętlę Perception-Reasoning-Action: agent przechwytuje zrzut ekranu, konwertuje go do formatu base64, wysyła do modelu wizyjnego w celu analizy i planowania następnego kroku.

  4. Model zwraca instrukcje akcji (ruch myszy, klik, wpisanie tekstu). Wykonaj te akcje za pomocą pyautogui, zachowując opóźnienie między operacjami (domyślnie 0,5 sekundy) dla stabilności.

  5. Po każdej akcji przechwytuj nowy zrzut ekranu i obserwuj rezultat. Agent automatycznie koryguje się na podstawie zmian na ekranie – pętla trwa do osiągnięcia celu lub wyczerpania kroków.

  6. Pamiętaj o bezpieczeństwie: uruchamiaj agenta w izolowanym środowisku (sandbox), ogranicz dostęp do wrażliwych systemów i monitoruj akcje agenta w czasie rzeczywistym, szczególnie podczas fazy testowania.

Podobne skille