crawl4ai
Automatyczne pobieranie i ekstrakcja danych ze stron internetowych, nawet tych z JavaScript
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Crawl4AI to umiejętność do scrapowania stron i budowania pipelineów danych bez konieczności użycia LLM. Obsługuje strony dynamiczne, generuje schematy ekstrakcji i pozwala na przetwarzanie wielu adresów URL jednocześnie. Zawiera gotowe skrypty do podstawowego crawlingu, przetwarzania wsadowego i ekstrakcji strukturalnych danych z automatycznym tworzeniem schematów. Idealne do automatyzacji zbierania informacji z sieci.
Jak używać
Sprawdź instalację Crawl4AI, uruchamiając w terminalu komendę
crawl4ai-doctor. Jeśli pojawią się błędy, uruchomcrawl4ai-setupaby uzupełnić konfigurację.Dla prostego pobierania strony użyj gotowego skryptu:
python scripts/basic_crawler.py https://twoja-strona.com. Skrypt wyodrębni zawartość w formacie markdown.Jeśli chcesz przetwarzać wiele adresów URL, przygotuj plik tekstowy z listą linków (jeden URL na linię) i uruchom
python scripts/batch_crawler.py urls.txt.Do ekstrakcji strukturalnych danych (np. produktów z e-sklepu) użyj pipeline'u z automatycznym generowaniem schematu:
python scripts/extraction_pipeline.py --generate-schema https://sklep.com "ekstrahuj produkty".W kodzie Python zaimportuj AsyncWebCrawler, skonfiguruj zachowanie przeglądarki (headless mode, rozmiar okna, timeout) i wykonaj crawl za pomocą metody
arun()z adresem URL.Dostosuj ustawienia crawlingu poprzez CrawlerRunConfig — możesz włączyć screenshoty, usunąć elementy nakładające się (popupy), lub zmienić timeout strony.