table-extractor
Wyciągaj tabele z PDF-ów z precyzją – obsługuje złożone struktury i tabele bez obramowania
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do ekstrakcji tabel z dokumentów PDF przy użyciu biblioteki camelot. Obsługuje zarówno tabele z widocznymi obramowaniami, jak i tabele bezobramowe, tabele ze scalonymi komórkami oraz wielostronicowe layouty. Wyniki otrzymujesz jako ramki danych pandas, gotowe do dalszej obróbki lub eksportu do Excela. Obsługuje dwie metody detekcji: lattice dla tabel z liniami oraz stream dla tabel bez obramowania.
Jak używać
Przygotuj plik PDF zawierający tabele, które chcesz wyekstrahować. Możesz pracować z pojedynczymi stronami lub całymi dokumentami wielostronicowymi.
Przekaż plik do umiejętności, podając podstawową instrukcję, np. "Wyciągnij wszystkie tabele z tego PDF" lub "Pobierz tabelę ze strony 5 tego raportu".
Jeśli dokument zawiera tabele z widocznymi obramowaniami (linie, ramki), umiejętność automatycznie użyje metody lattice, która wykrywa tabele na podstawie linii i granic.
Dla tabel bez obramowania lub z tekstem pozycjonowanym w kolumnach, możesz poprosić o użycie metody stream, która analizuje rozmieszczenie tekstu. Przykład: "Wyciągnij tabele bezobramowe z tego dokumentu".
Wskaż konkretne strony, jeśli chcesz ograniczyć ekstrakcję – możesz podać pojedynczą stronę ("strona 1"), wiele stron ("strony 1, 3, 5") lub zakres ("strony 1-5").
Otrzymasz wyniki jako strukturyzowane dane (pandas DataFrames), które możesz następnie eksportować do formatu Excel, CSV lub innego wybranego formatu.
Podobne skille
software-security
autor: project-codeguard
ui-audit
autor: openclaw
obsidian
autor: gapmiss
windows-ui-automation
autor: martinholovsky
accessibility-compliance
autor: wshobson
youtube-watcher
autor: openclaw