Toolverse
Wszystkie skille

pdf-processing

autor: Ming-Kai-LC

Przetwarzaj duże pliki PDF bez limitów Claude'a – dzielenie, ekstrakcja tekstu i OCR

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
134

O skillu

Skill do obsługi plików PDF, które przekraczają możliwości bezpośredniego odczytu Claude'a. Zawiera techniki dzielenia dużych dokumentów (powyżej 10-15 MB lub 30-50 stron), ekstrakcję tekstu i tabel oraz OCR dla skanów. Rozwiązuje problem awarii sesji i utraty kontekstu przy pracy z dużymi plikami. Wymaga Pythona 3.8+ i bibliotek PyPDF, PyMuPDF, pdfplumber, pdf2image oraz Tesseract.

Jak używać

  1. Zainstaluj wymagane zależności: Python 3.8 lub nowszy, biblioteki PyPDF (≥3.0.0), PyMuPDF (≥1.23.0), pdfplumber (≥0.9.0), pdf2image (≥1.16.0) oraz pytesseract (≥0.3.10). Upewnij się, że masz dostęp do Tesseractu dla funkcjonalności OCR.

  2. Przed przystąpieniem do pracy z plikiem PDF sprawdź, czy jego rozmiar nie przekracza bezpiecznych limitów. Użyj funkcji is_pdf_too_large() z dokumentacji – jeśli plik jest większy niż 10 MB, przejdź do kroku 3. Jeśli jest mniejszy, możesz odczytać go bezpośrednio za pomocą narzędzia Read w Claude'a.

  3. Dla dużych plików zastosuj ekstrakcję tekstu za pomocą biblioteki PyMuPDF (fitz), która jest najszybsza. Funkcja extract_text_fast() przetwarza wszystkie strony i zwraca pełny tekst dokumentu bez ryzyka awarii sesji.

  4. Jeśli dokument zawiera tabele lub wymaga precyzyjnej ekstrakcji strukturalnej, użyj biblioteki pdfplumber zamiast PyMuPDF – oferuje lepszą obsługę tabel i elementów strukturalnych.

  5. Dla skanów lub dokumentów zawierających obrazy zamiast tekstu zastosuj OCR za pośrednictwem pytesseract. Najpierw konwertuj strony PDF na obrazy (pdf2image), a następnie uruchom rozpoznawanie tekstu.

  6. Dla bardzo dużych plików (powyżej 50 stron) podziel PDF na mniejsze części przed ekstrakcją – technika chunking'u opisana w dokumentacji pozwala na przetwarzanie fragmentów bez przekroczenia limitów kontekstu Claude'a.

Podobne skille