pdf-processing
Przetwarzaj duże pliki PDF bez limitów Claude'a – dzielenie, ekstrakcja tekstu i OCR
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do obsługi plików PDF, które przekraczają możliwości bezpośredniego odczytu Claude'a. Zawiera techniki dzielenia dużych dokumentów (powyżej 10-15 MB lub 30-50 stron), ekstrakcję tekstu i tabel oraz OCR dla skanów. Rozwiązuje problem awarii sesji i utraty kontekstu przy pracy z dużymi plikami. Wymaga Pythona 3.8+ i bibliotek PyPDF, PyMuPDF, pdfplumber, pdf2image oraz Tesseract.
Jak używać
Zainstaluj wymagane zależności: Python 3.8 lub nowszy, biblioteki PyPDF (≥3.0.0), PyMuPDF (≥1.23.0), pdfplumber (≥0.9.0), pdf2image (≥1.16.0) oraz pytesseract (≥0.3.10). Upewnij się, że masz dostęp do Tesseractu dla funkcjonalności OCR.
Przed przystąpieniem do pracy z plikiem PDF sprawdź, czy jego rozmiar nie przekracza bezpiecznych limitów. Użyj funkcji
is_pdf_too_large()z dokumentacji – jeśli plik jest większy niż 10 MB, przejdź do kroku 3. Jeśli jest mniejszy, możesz odczytać go bezpośrednio za pomocą narzędzia Read w Claude'a.Dla dużych plików zastosuj ekstrakcję tekstu za pomocą biblioteki PyMuPDF (fitz), która jest najszybsza. Funkcja
extract_text_fast()przetwarza wszystkie strony i zwraca pełny tekst dokumentu bez ryzyka awarii sesji.Jeśli dokument zawiera tabele lub wymaga precyzyjnej ekstrakcji strukturalnej, użyj biblioteki pdfplumber zamiast PyMuPDF – oferuje lepszą obsługę tabel i elementów strukturalnych.
Dla skanów lub dokumentów zawierających obrazy zamiast tekstu zastosuj OCR za pośrednictwem pytesseract. Najpierw konwertuj strony PDF na obrazy (pdf2image), a następnie uruchom rozpoznawanie tekstu.
Dla bardzo dużych plików (powyżej 50 stron) podziel PDF na mniejsze części przed ekstrakcją – technika chunking'u opisana w dokumentacji pozwala na przetwarzanie fragmentów bez przekroczenia limitów kontekstu Claude'a.
Podobne skille
prompt-optimizer
autor: solatis
web-artifacts-builder
autor: anthropics
claude-automation-recommender
autor: anthropics
autor: anthropics
skill-installer
autor: openai
market-research-reports
autor: davila7