Toolverse
Wszystkie skille

table-extractor

autor: openclaw

Wyciągaj tabele z PDF-ów z precyzją – obsługuje złożone struktury i tabele bez obramowania

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
25

O skillu

Umiejętność do ekstrakcji tabel z dokumentów PDF przy użyciu biblioteki camelot. Obsługuje zarówno tabele z widocznymi obramowaniami, jak i tabele bezobramowe, tabele ze scalonymi komórkami oraz wielostronicowe layouty. Wyniki otrzymujesz jako ramki danych pandas, gotowe do dalszej obróbki lub eksportu do Excela. Obsługuje dwie metody detekcji: lattice dla tabel z liniami oraz stream dla tabel bez obramowania.

Jak używać

  1. Przygotuj plik PDF zawierający tabele, które chcesz wyekstrahować. Możesz pracować z pojedynczymi stronami lub całymi dokumentami wielostronicowymi.

  2. Przekaż plik do umiejętności, podając podstawową instrukcję, np. "Wyciągnij wszystkie tabele z tego PDF" lub "Pobierz tabelę ze strony 5 tego raportu".

  3. Jeśli dokument zawiera tabele z widocznymi obramowaniami (linie, ramki), umiejętność automatycznie użyje metody lattice, która wykrywa tabele na podstawie linii i granic.

  4. Dla tabel bez obramowania lub z tekstem pozycjonowanym w kolumnach, możesz poprosić o użycie metody stream, która analizuje rozmieszczenie tekstu. Przykład: "Wyciągnij tabele bezobramowe z tego dokumentu".

  5. Wskaż konkretne strony, jeśli chcesz ograniczyć ekstrakcję – możesz podać pojedynczą stronę ("strona 1"), wiele stron ("strony 1, 3, 5") lub zakres ("strony 1-5").

  6. Otrzymasz wyniki jako strukturyzowane dane (pandas DataFrames), które możesz następnie eksportować do formatu Excel, CSV lub innego wybranego formatu.

Podobne skille