Toolverse
Wszystkie skille

crawl4ai

autor: basher83

Automatyczne pobieranie i ekstrakcja danych ze stron internetowych, nawet tych z JavaScript

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
DevOps
Wyświetlenia
128

O skillu

Crawl4AI to umiejętność do scrapowania stron i budowania pipelineów danych bez konieczności użycia LLM. Obsługuje strony dynamiczne, generuje schematy ekstrakcji i pozwala na przetwarzanie wielu adresów URL jednocześnie. Zawiera gotowe skrypty do podstawowego crawlingu, przetwarzania wsadowego i ekstrakcji strukturalnych danych z automatycznym tworzeniem schematów. Idealne do automatyzacji zbierania informacji z sieci.

Jak używać

  1. Sprawdź instalację Crawl4AI, uruchamiając w terminalu komendę crawl4ai-doctor. Jeśli pojawią się błędy, uruchom crawl4ai-setup aby uzupełnić konfigurację.

  2. Dla prostego pobierania strony użyj gotowego skryptu: python scripts/basic_crawler.py https://twoja-strona.com. Skrypt wyodrębni zawartość w formacie markdown.

  3. Jeśli chcesz przetwarzać wiele adresów URL, przygotuj plik tekstowy z listą linków (jeden URL na linię) i uruchom python scripts/batch_crawler.py urls.txt.

  4. Do ekstrakcji strukturalnych danych (np. produktów z e-sklepu) użyj pipeline'u z automatycznym generowaniem schematu: python scripts/extraction_pipeline.py --generate-schema https://sklep.com "ekstrahuj produkty".

  5. W kodzie Python zaimportuj AsyncWebCrawler, skonfiguruj zachowanie przeglądarki (headless mode, rozmiar okna, timeout) i wykonaj crawl za pomocą metody arun() z adresem URL.

  6. Dostosuj ustawienia crawlingu poprzez CrawlerRunConfig — możesz włączyć screenshoty, usunąć elementy nakładające się (popupy), lub zmienić timeout strony.

Podobne skille