Toolverse
Wszystkie skille

doc-parser

autor: openclaw

Parsuj złożone dokumenty z precyzją – tabele, figury i wielokolumnowe układy

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
2

O skillu

Umiejętność zaawansowanego parsowania dokumentów oparta na bibliotece docling od IBM. Obsługuje pliki PDF, Word, PowerPoint, obrazy i HTML – ekstrahuje tabele, figury i tekst, zachowując strukturę dokumentu. Idealny do analizy raportów, artykułów naukowych i skomplikowanych layoutów. Zwraca dane w formacie markdown lub strukturyzowanym, gotowym do dalszego przetwarzania.

Jak używać

  1. Udostępnij dokument do parsowania – może to być plik PDF, Word (.docx), PowerPoint (.pptx), obraz (.png, .jpg) lub HTML. Narzędzie obsługuje zarówno dokumenty natywne, jak i zeskanowane.

  2. Określ, co chcesz wyekstrahować – czy interesują Cię tabele, figury z podpisami, cały tekst czy struktura dokumentu. Możesz poprosić o konkretne elementy lub pełną analizę.

  3. Umiejętność przetworzy dokument za pomocą docling i zwróci dane w formacie markdown lub strukturyzowanym. Tekst zostanie wyekstrahowany z zachowaniem oryginalnego układu, tabele będą czytelne, a figury zidentyfikowane.

  4. Wykorzystaj wynik – skopiuj markdown do edytora, użyj danych do dalszej analizy lub zintegruj z innym procesem. Struktura dokumentu jest w pełni zachowana, co ułatwia pracę z wielokolumnowymi i złożonymi layoutami.

  5. W razie potrzeby poproś o konwersję do innego formatu – umiejętność obsługuje eksport do markdown, co czyni dane uniwersalnymi i łatwymi do przetworzenia.

Podobne skille