Распознавание pdf

2024-08-21 · 1 мин. для прочтения

Распознавание pdf.

Содержание

1 Решения по распознаванию pdf

1.1 OCRmyPDF

Распознавание pdf. OCRmyPDF
Репозиторий: https://github.com/ocrmypdf/OCRmyPDF
Сайт: https://ocrmypdf.readthedocs.io/

1.2 pdfsandwich

Сайт: http://www.tobias-elze.de/pdfsandwich/

2 Некоторые типовые задачи

2.1 Перенос ocr-слоя из одно файла в другой

2.1.1 Постановка задачи

Есть 2 pdf-файла:
- хороший, но без текстового слоя;
- плохой, но с правильным текстовым слоем.
Оба файла содержат одинаковые изображения.
Цель состоит в том, чтобы встроить текстовый слой из второго файла в первый pdf-файл.

2.1.2 Пример задачи

Первый файл подготовлен с помощью OCRmyPDF, имеет адекватный размер.
Второй файл обработан FineReader, имеет хороший текстовый слой, но очень большой размер.

2.1.3 Варианты решения

Удалить изображения из файла input_ocr.pdf с помощью Ghostscript:
```
gs -o "input_ocr_textonly.pdf" -sDEVICE=pdfwrite -dFILTERIMAGE "input_ocr.pdf"
```

Объединить его с файлом input_image.pdf с помощью pdftk:

pdftk "input_ocr_textonly.pdf" multistamp "input_image.pdf" output "output.pdf"

Или объединить его с файлом input_image.pdf с помощью qpdf:

qpdf --empty --pages "input_image.pdf" -- --underlay "input_ocr_textonly.pdf" -- "output.pdf"

2.1.4 Ресурсы

https://superuser.com/questions/679979/copy-pdf-text-layer-to-another-pdf

Обновлено 2024-09-29

Pdf Read

Authors

Дмитрий Сергеевич Кулябов

Профессор кафедры теории вероятностей и кибербезопасности

Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы. Научные интересы относятся к области теоретической физики и математического моделирования.

← Wayland. Менеджер окон Sway 2024-08-21

Подпись коммитов git ключом ssh 2024-08-14 →

No results found