ocr-image-to-markdown

Name: ocr-image-to-markdown
Author: hugohe3

autor: hugohe3

Konwertuj zdjęcia i dokumenty na edytowalny Markdown za pomocą wizji AI

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: hugohe3
Kategoria: Data Science
Wyświetlenia: 25

Repozytorium GitHub

O skillu

Umiejętność OCR dla agentów AI, która odczytuje obrazy (PNG, JPG i inne formaty) i transkrybuje ich zawartość — tekst, tabele, diagramy — do sformatowanego Markdown. Przydatna do ekstrakcji danych z tabel, slajdów, zrzutów ekranu dokumentów i raportów, szczególnie gdy nie masz dostępu do zewnętrznych bibliotek OCR. Agent wykorzystuje swoją zdolność multimodalną do bezpośredniego przetwarzania obrazów bez dodatkowych narzędzi.

Jak używać

Zlokalizuj obraz, który chcesz przetworzyć. Jeśli potrzebujesz przejrzeć katalog, użyj polecenia list_dir aby wyświetlić dostępne pliki.
Wyświetl zawartość obrazu za pomocą view_file wskazując ścieżkę do pliku. To pozwala modelowi wizyjnemu przeanalizować obraz bezpośrednio.
Transkrybuj zawartość do Markdown na podstawie tego, co widzisz. Dla tabel użyj standardowego formatu Markdown (| nagłówek | ... |), dla nagłówków użyj #, ## itd. zachowując hierarchię, a tekst zwykły transkrybuj jako paragrafy. Zwróć szczególną uwagę na dokładność liczb, szczególnie w dokumentach finansowych.
Jeśli obraz zawiera złożony układ (np. kolumny obok siebie), czytaj logicznie od góry do dołu, od lewej do prawej. Dla diagramów opisz trendy lub wyodrębnij widoczne punkty danych jako listę lub tabelę.
Zapisz transkrybowaną zawartość do pliku Markdown za pomocą write_to_file. Jeśli przetwarzasz wiele obrazów, możesz dołączać wyniki do tego samego pliku lub organizować je logicznie w osobnych plikach.
Nie próbuj pisać kodu ani używać bibliotek Pythona (pytesseract, easyocr, PIL) — polegaj wyłącznie na zdolności wizualnej agenta do bezpośredniego odczytania obrazu.

Podobne skille

arxiv-search

autor: langchain-ai

Przeszukuj arXiv i znajdź najnowsze prace badawcze z fizyki, matematyki i informatyki

Data Science

76172

openrouter

autor: rawveg

Dostęp do 400+ modeli AI przez jeden API z automatycznym routingiem i fallbackami

Data Science

17138

skill-installer

autor: openai

Instaluj umiejętności Codex z oficjalnej listy lub prywatnych repozytoriów GitHub.

Data Science

23118

deepwiki-rs

autor: sopaco

Generuj dokumentację architektury i analizuj kod za pomocą AI — bez ręcznego pisania

Data Science

18144

moon-dev-trading-agents

autor: moondevonyt

48+ agentów AI do autonomicznego handlu kryptowalutami na wielu giełdach

Data Science

102232

pptx

autor: anthropics

Twórz, edytuj i analizuj prezentacje PowerPoint bezpośrednio w Claude'u

Data Science

134310