mineru-pdf
Konwertuj PDFy na Markdown i JSON lokalnie, bez chmury – ekstrahuj tabele i obrazy
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do parsowania plików PDF bezpośrednio na twoim komputerze za pomocą MinerU. Przetwarzanie odbywa się na procesorze (CPU), bez wysyłania danych do sieci. Otrzymujesz wynik w formacie Markdown lub JSON – wybierz, co ci bardziej pasuje. Jeśli potrzebujesz, ekstrahuj z dokumentu tabele i obrazy. Każdy plik PDF tworzy własny folder z wynikami, co ułatwia organizację.
Jak używać
Upewnij się, że MinerU jest zainstalowany na twoim systemie oraz że umiejętność mineru-pdf jest dostępna w twoim środowisku agenta.
Przygotuj ścieżkę do pliku PDF, który chcesz przetworzyć. Plik musi być dostępny lokalnie na dysku.
Uruchom skrypt parsowania z katalogu umiejętności, podając ścieżkę do pliku:
./scripts/mineru_parse.sh /ścieżka/do/pliku.pdf. Domyślnie wynik zostanie zapisany w formacie Markdown w folderze./mineru-output/.Jeśli chcesz zmienić format wyjścia na JSON, dodaj flagę
--format json:./scripts/mineru_parse.sh /ścieżka/do/pliku.pdf --format json.Aby ekstrahować tabele i obrazy z dokumentu, użyj flag
--tables --images:./scripts/mineru_parse.sh /ścieżka/do/pliku.pdf --tables --images. Możesz połączyć te flagi z wyborem formatu.Sprawdź folder wyjściowy – MinerU automatycznie utworzy podfolder o nazwie opartej na nazwie dokumentu (np.
./mineru-output/nazwa_pliku/), w którym znajdziesz przetworzony plik Markdown lub JSON oraz ekstrahowane zasoby.