crawl4ai

Name: crawl4ai
Author: basher83

autor: basher83

Automatyczne pobieranie i ekstrakcja danych ze stron internetowych, nawet tych z JavaScript

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: basher83
Kategoria: DevOps
Wyświetlenia: 128

Repozytorium GitHub

O skillu

Crawl4AI to umiejętność do scrapowania stron i budowania pipelineów danych bez konieczności użycia LLM. Obsługuje strony dynamiczne, generuje schematy ekstrakcji i pozwala na przetwarzanie wielu adresów URL jednocześnie. Zawiera gotowe skrypty do podstawowego crawlingu, przetwarzania wsadowego i ekstrakcji strukturalnych danych z automatycznym tworzeniem schematów. Idealne do automatyzacji zbierania informacji z sieci.

Jak używać

Sprawdź instalację Crawl4AI, uruchamiając w terminalu komendę crawl4ai-doctor. Jeśli pojawią się błędy, uruchom crawl4ai-setup aby uzupełnić konfigurację.
Dla prostego pobierania strony użyj gotowego skryptu: python scripts/basic_crawler.py https://twoja-strona.com. Skrypt wyodrębni zawartość w formacie markdown.
Jeśli chcesz przetwarzać wiele adresów URL, przygotuj plik tekstowy z listą linków (jeden URL na linię) i uruchom python scripts/batch_crawler.py urls.txt.
Do ekstrakcji strukturalnych danych (np. produktów z e-sklepu) użyj pipeline'u z automatycznym generowaniem schematu: python scripts/extraction_pipeline.py --generate-schema https://sklep.com "ekstrahuj produkty".
W kodzie Python zaimportuj AsyncWebCrawler, skonfiguruj zachowanie przeglądarki (headless mode, rozmiar okna, timeout) i wykonaj crawl za pomocą metody arun() z adresem URL.
Dostosuj ustawienia crawlingu poprzez CrawlerRunConfig — możesz włączyć screenshoty, usunąć elementy nakładające się (popupy), lub zmienić timeout strony.

Podobne skille

resolve-conflicts

autor: antinomyhq

Rozwiąż konflikty merge'a w Git za pomocą strukturalnego planu zamiast ręcznego wyboru.

DevOps

48163

task-master

autor: sfc-gh-dflippo

Zarządzaj złożonymi projektami z AI — automatyczne rozbijanie zadań, śledzenie zależności, specification-driven development

DevOps

14126

streamlit

autor: sverzijl

Asystent do budowania interaktywnych aplikacji danych w Pythonie z Streamlit

DevOps

49161

aws-solution-architect

autor: alirezarezvani

Projektuj skalowalne architektury AWS dla startupów z szablonami infrastruktury jako kodu

DevOps

1231

game-art

autor: davila7

Przewodnik po stylach graficznych, pipelinach assetów i animacjach do gier

DevOps

1268

senior-computer-vision

autor: davila7

Zaawansowana umiejętność widzenia komputerowego do budowy produkcyjnych systemów AI z detekcją obiektów i segmentacją.

DevOps

1044