kreuzberg

Name: kreuzberg
Author: kreuzberg-dev

autor: kreuzberg-dev

Wyodrębniaj tekst, tabele i obrazy z 91+ formatów dokumentów za pomocą API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: kreuzberg-dev
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

Kreuzberg to biblioteka do inteligentnego przetwarzania dokumentów z rdzeniem napisanym w Rust-u. Pozwala wyodrębniać tekst, tabele, metadane i obrazy z ponad 91 formatów plików — PDF, dokumentów Office, obrazów ze skanowaniem OCR, HTML, e-maili, archiwów i publikacji naukowych. Obsługuje synchroniczne i asynchroniczne przetwarzanie, konfigurację OCR, dzielenie tekstu na fragmenty oraz przetwarzanie wsadowe. Dostępna dla Pythona, Node.js/TypeScript, Rust-a i CLI.

Jak używać

Zainstaluj Kreuzberg dla wybranego języka programowania: w Pythonie uruchom pip install kreuzberg, opcjonalnie dodaj backend OCR (pip install kreuzberg[easyocr]); w Node.js wykonaj npm install @kreuzberg/node; w Rust-u dodaj do Cargo.toml zależność kreuzberg z wersją 4 i wymaganymi funkcjami (np. tokio-runtime do przetwarzania synchronicznego i wsadowego). 2. Przygotuj dokument do przetworzenia — obsługiwane są pliki PDF, dokumenty Office, obrazy, HTML, e-maile i archiwa. 3. Napisz kod wywołujący API Kreuzberg — w Pythonie użyj extract_file() z parametrem ścieżki do pliku, w Node.js analogicznie wywołaj funkcję ekstraktora z biblioteki. 4. Skonfiguruj opcje ekstrakcji zgodnie z potrzebami: włącz OCR dla skanów, ustaw format wyjściowy, skonfiguruj dzielenie tekstu na fragmenty lub wykrywanie języka. 5. Obsługuj wynik — dostęp do wyodrębnionego tekstu przez result.content, metadanych i obrazów zwróconych w strukturze wyniku. 6. Dla przetwarzania wielu plików użyj funkcji przetwarzania wsadowego dostępnej w bibliotece, opcjonalnie implementując niestandardowe wtyczki post-procesorów lub walidatorów.

Podobne skille

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

reverse-engineering-tools

autor: gmh5225

Przewodnik po narzędziach inżynierii wstecznej dla badań bezpieczeństwa gier

Bezpieczeństwo

3168

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171