agent-browser
Automatyzuj interakcje z webem dla agentów AI — nawigacja, formularze, klikanie, zrzuty ekranu.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Agent-browser to narzędzie automatyzacji przeglądarki dla agentów AI. Pozwala na programowe sterowanie stronami internetowymi: otwieranie adresów URL, wypełnianie formularzy, klikanie przycisków, robienie zrzutów ekranu, ekstrakcję danych i testowanie aplikacji webowych. Idealne, gdy agent musi wchodzić w interakcję z interfejsami webowymi — od logowania po automatyzację złożonych sekwencji działań w przeglądarce.
Jak używać
Zainstaluj skill agent-browser w swoim środowisku agenta AI (dostępny w repozytorium Vercel Labs). Upewnij się, że masz dostęp do poleceń bash poprzez narzędzie agent-browser.
Aby otworzyć stronę, użyj polecenia
agent-browser open <URL>— na przykładagent-browser open https://example.com/form. To uruchomi przeglądarkę i przejdzie do podanego adresu.Po załadowaniu strony wykonaj
agent-browser snapshot -i, aby uzyskać interaktywne elementy ze zidentyfikowanymi referencjami (takimi jak @e1, @e2, @e3). Te referencje reprezentują pola wejściowe, przyciski i inne elementy, którymi możesz manipulować.Wchodzić w interakcję z elementami za pomocą ich referencji: użyj
agent-browser fill @e1 "tekst"do wypełnienia pola,agent-browser click @e3do kliknięcia przycisku, lubagent-browser select @e1 "opcja"do wybrania opcji z listy rozwijanej.Po każdej akcji, która zmienia zawartość strony (nawigacja, kliknięcie przycisku), czekaj na załadowanie za pomocą
agent-browser wait --load networkidle, a następnie wykonaj nowy snapshot (agent-browser snapshot -i), aby pobrać zaktualizowane referencje elementów.Powtarzaj kroki 4-5, aż osiągniesz cel — czy to wypełnienie formularza, zalogowanie się, czy ekstrakcję danych ze strony.