Toolverse
Wszystkie skille

firecrawl-data-handling

autor: jeremylongshore

Czyść, deduplikuj i przechowuj zawartość ze Firecrawl – gotową do RAG i LLM

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Skill do przetwarzania danych pobranych przez Firecrawl. Automatycznie czyści markdown, usuwa duplikaty, dzieli tekst na fragmenty optymalne dla modeli językowych i przygotowuje zawartość do baz wiedzy RAG. Obsługuje walidację strukturalną, konfigurację przechowywania i integrację z pipelinami przetwarzania. Idealny dla zespołów budujących systemy wyszukiwania semantycznego lub analizy treści ze stron internetowych.

Jak używać

  1. Zainstaluj skill w swoim projekcie Claude Code lub Codex, dodając go do konfiguracji kompatybilnych narzędzi (claude-code, codex, openclaw).

  2. Skonfiguruj klucz API Firecrawl w zmiennych środowiskowych (FIRECRAWL_API_KEY), aby skill mógł łączyć się z usługą pobierania stron.

  3. Wyzwól skill frazami takimi jak "firecrawl data", "firecrawl content processing", "firecrawl markdown cleaning" lub "firecrawl RAG pipeline" – system automatycznie rozpozna kontekst i załaduje odpowiednie moduły.

  4. Podaj URL strony do przetworzenia. Skill pobierze zawartość w formacie markdown, usuwając nawigację, stopkę, paski boczne i znaczniki skryptów, aby zachować tylko główną treść.

  5. Zawartość zostanie oczyszczona – skill usuwa wielokrotne znaki nowej linii, łącza JavaScript, wbudowane URI danych i komentarze HTML, aby uzyskać czysty markdown.

  6. Jeśli potrzebujesz deduplikacji lub podziału tekstu na fragmenty dla LLM, skill obsługuje chunking i walidację strukturalną za pomocą Zod – określ wymagane rozmiary fragmentów lub schemat danych, a system automatycznie przygotuje zawartość do przechowywania lub indeksowania w bazie RAG.

Podobne skille