K
kreuzberg
Wyodrębniaj tekst, tabele i obrazy z 91+ formatów dokumentów za pomocą API
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Kreuzberg to biblioteka do inteligentnego przetwarzania dokumentów z rdzeniem napisanym w Rust-u. Pozwala wyodrębniać tekst, tabele, metadane i obrazy z ponad 91 formatów plików — PDF, dokumentów Office, obrazów ze skanowaniem OCR, HTML, e-maili, archiwów i publikacji naukowych. Obsługuje synchroniczne i asynchroniczne przetwarzanie, konfigurację OCR, dzielenie tekstu na fragmenty oraz przetwarzanie wsadowe. Dostępna dla Pythona, Node.js/TypeScript, Rust-a i CLI.
Jak używać
- Zainstaluj Kreuzberg dla wybranego języka programowania: w Pythonie uruchom
pip install kreuzberg, opcjonalnie dodaj backend OCR (pip install kreuzberg[easyocr]); w Node.js wykonajnpm install @kreuzberg/node; w Rust-u dodaj do Cargo.toml zależnośćkreuzbergz wersją 4 i wymaganymi funkcjami (np.tokio-runtimedo przetwarzania synchronicznego i wsadowego). 2. Przygotuj dokument do przetworzenia — obsługiwane są pliki PDF, dokumenty Office, obrazy, HTML, e-maile i archiwa. 3. Napisz kod wywołujący API Kreuzberg — w Pythonie użyjextract_file()z parametrem ścieżki do pliku, w Node.js analogicznie wywołaj funkcję ekstraktora z biblioteki. 4. Skonfiguruj opcje ekstrakcji zgodnie z potrzebami: włącz OCR dla skanów, ustaw format wyjściowy, skonfiguruj dzielenie tekstu na fragmenty lub wykrywanie języka. 5. Obsługuj wynik — dostęp do wyodrębnionego tekstu przezresult.content, metadanych i obrazów zwróconych w strukturze wyniku. 6. Dla przetwarzania wielu plików użyj funkcji przetwarzania wsadowego dostępnej w bibliotece, opcjonalnie implementując niestandardowe wtyczki post-procesorów lub walidatorów.