Распознавание pdf
Распознавание pdf.
Содержание
1 Решения по распознаванию pdf
1.1 OCRmyPDF
- Распознавание pdf. OCRmyPDF
- Репозиторий: https://github.com/ocrmypdf/OCRmyPDF
- Сайт: https://ocrmypdf.readthedocs.io/
1.2 pdfsandwich
2 Некоторые типовые задачи
2.1 Перенос ocr-слоя из одно файла в другой
2.1.1 Постановка задачи
- Есть 2 pdf-файла:
- хороший, но без текстового слоя;
- плохой, но с правильным текстовым слоем.
- Оба файла содержат одинаковые изображения.
- Цель состоит в том, чтобы встроить текстовый слой из второго файла в первый pdf-файл.
2.1.2 Пример задачи
- Первый файл подготовлен с помощью OCRmyPDF, имеет адекватный размер.
- Второй файл обработан FineReader, имеет хороший текстовый слой, но очень большой размер.
2.1.3 Варианты решения
- Удалить изображения из файла
input_ocr.pdf
с помощью Ghostscript:1gs -o "input_ocr_textonly.pdf" -sDEVICE=pdfwrite -dFILTERIMAGE "input_ocr.pdf"
- Объединить его с файлом
input_image.pdf
с помощьюpdftk
:1pdftk "input_ocr_textonly.pdf" multistamp "input_image.pdf" output "output.pdf"
- Или объединить его с файлом
input_image.pdf
с помощьюqpdf
:1qpdf --empty --pages "input_image.pdf" -- --underlay "input_ocr_textonly.pdf" -- "output.pdf"