Toolverse
Wszystkie skille

kreuzberg

autor: kreuzberg-dev

Wyodrębniaj tekst, tabele i obrazy z 91+ formatów dokumentów za pomocą API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

Kreuzberg to biblioteka do inteligentnego przetwarzania dokumentów z rdzeniem napisanym w Rust-u. Pozwala wyodrębniać tekst, tabele, metadane i obrazy z ponad 91 formatów plików — PDF, dokumentów Office, obrazów ze skanowaniem OCR, HTML, e-maili, archiwów i publikacji naukowych. Obsługuje synchroniczne i asynchroniczne przetwarzanie, konfigurację OCR, dzielenie tekstu na fragmenty oraz przetwarzanie wsadowe. Dostępna dla Pythona, Node.js/TypeScript, Rust-a i CLI.

Jak używać

  1. Zainstaluj Kreuzberg dla wybranego języka programowania: w Pythonie uruchom pip install kreuzberg, opcjonalnie dodaj backend OCR (pip install kreuzberg[easyocr]); w Node.js wykonaj npm install @kreuzberg/node; w Rust-u dodaj do Cargo.toml zależność kreuzberg z wersją 4 i wymaganymi funkcjami (np. tokio-runtime do przetwarzania synchronicznego i wsadowego). 2. Przygotuj dokument do przetworzenia — obsługiwane są pliki PDF, dokumenty Office, obrazy, HTML, e-maile i archiwa. 3. Napisz kod wywołujący API Kreuzberg — w Pythonie użyj extract_file() z parametrem ścieżki do pliku, w Node.js analogicznie wywołaj funkcję ekstraktora z biblioteki. 4. Skonfiguruj opcje ekstrakcji zgodnie z potrzebami: włącz OCR dla skanów, ustaw format wyjściowy, skonfiguruj dzielenie tekstu na fragmenty lub wykrywanie języka. 5. Obsługuj wynik — dostęp do wyodrębnionego tekstu przez result.content, metadanych i obrazów zwróconych w strukturze wyniku. 6. Dla przetwarzania wielu plików użyj funkcji przetwarzania wsadowego dostępnej w bibliotece, opcjonalnie implementując niestandardowe wtyczki post-procesorów lub walidatorów.

Podobne skille