Toolverse
Wszystkie skille

pdf

autor: anthropics

Przetwarzaj, wyodrębniaj i generuj pliki PDF programowo – od formularzy po scalanie dokumentów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
144

O skillu

Kompleksowy zestaw narzędzi do pracy z plikami PDF. Wyodrębniaj tekst i tabele, twórz nowe dokumenty, łącz i dziel pliki, wypełniaj formularze. Idealne do automatyzacji przetwarzania dokumentów na dużą skalę – Claude obsługuje wszystkie operacje od czytania metadanych po rotację stron i ekstrakcję danych z tabel.

Jak używać

  1. Zainstaluj bibliotekę pypdf, która stanowi podstawę tego zestawu narzędzi: pip install pypdf. Biblioteka ta obsługuje wszystkie podstawowe operacje na plikach PDF.

  2. Aby wyodrębnić tekst z dokumentu, wczytaj plik za pomocą PdfReader, przejdź przez wszystkie strony i zbierz tekst: dla każdej strony użyj metody extract_text(), a wyniki połącz w jeden ciąg znaków.

  3. Do scalenia kilku plików PDF utwórz nowy PdfWriter, wczytaj każdy dokument źródłowy za pomocą PdfReader, dodaj wszystkie strony z każdego pliku do writera, a następnie zapisz wynik w nowym pliku.

  4. Aby podzielić dokument na osobne pliki, wczytaj PDF, iteruj po każdej stronie, utwórz dla niej nowy PdfWriter, dodaj stronę i zapisz jako oddzielny plik (np. page_1.pdf, page_2.pdf).

  5. Jeśli potrzebujesz wypełnić formularz PDF, zapoznaj się z dokumentacją forms.md dostępną w repozytorium – zawiera ona szczegółowe instrukcje i przykłady dla tej zaawansowanej operacji.

  6. Do bardziej złożonych zadań, takich jak ekstrakcja tabel lub zaawansowana analiza, rozważ użycie biblioteki pdfplumber – dokumentacja reference.md zawiera przykłady i porównanie dostępnych bibliotek.

Podobne skille