computer-use-agents

Name: computer-use-agents
Author: davila7

autor: davila7

Agenty AI sterujące komputerem jak człowiek – czytają ekran, klikają i piszą

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 30

Repozytorium GitHub

O skillu

Umożliwia budowanie agentów AI, które wchodzą w interakcję z interfejsami graficznymi poprzez widzenie ekranu, sterowanie kursorem, klikanie przycisków i pisanie tekstu. Skill obejmuje implementacje Anthropic Computer Use, OpenAI Operator oraz rozwiązania open-source, ze szczególnym naciskiem na bezpieczeństwo, izolację środowiska i obsługę wyzwań związanych z kontrolą opartą na wizji. Idealne do automatyzacji pulpitu, sterowania ekranem i GUI automation.

Jak używać

Zainstaluj wymagane zależności: bibliotekę Anthropic SDK, PIL do przetwarzania obrazów oraz pyautogui do sterowania myszą i klawiaturą. Upewnij się, że masz dostęp do klucza API Anthropic.
Zaimportuj klasę ComputerUseAgent z umiejętności i zainicjuj ją, przekazując klienta Anthropic oraz wybrany model (domyślnie claude-sonnet-4-20250514). Ustaw maksymalną liczbę kroków (max_steps) aby zapobiec nieskończonym pętlom – domyślnie 50 iteracji.
Zaimplementuj pętlę Perception-Reasoning-Action: agent przechwytuje zrzut ekranu, konwertuje go do formatu base64, wysyła do modelu wizyjnego w celu analizy i planowania następnego kroku.
Model zwraca instrukcje akcji (ruch myszy, klik, wpisanie tekstu). Wykonaj te akcje za pomocą pyautogui, zachowując opóźnienie między operacjami (domyślnie 0,5 sekundy) dla stabilności.
Po każdej akcji przechwytuj nowy zrzut ekranu i obserwuj rezultat. Agent automatycznie koryguje się na podstawie zmian na ekranie – pętla trwa do osiągnięcia celu lub wyczerpania kroków.
Pamiętaj o bezpieczeństwie: uruchamiaj agenta w izolowanym środowisku (sandbox), ogranicz dostęp do wrażliwych systemów i monitoruj akcje agenta w czasie rzeczywistym, szczególnie podczas fazy testowania.

Podobne skille

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

reverse-engineering-tools

autor: gmh5225

Przewodnik po narzędziach inżynierii wstecznej dla badań bezpieczeństwa gier

Bezpieczeństwo

3168

content-creator

autor: alirezarezvani

Twórz treści SEO z konsystentnym głosem marki – analizator, optymalizator i szablony w jednym

Bezpieczeństwo

25124