Распознавание pdf

Распознавание pdf.

Содержание

1 Решения по распознаванию pdf

1.1 OCRmyPDF

1.2 pdfsandwich

2 Некоторые типовые задачи

2.1 Перенос ocr-слоя из одно файла в другой

2.1.1 Постановка задачи

  • Есть 2 pdf-файла:
    • хороший, но без текстового слоя;
    • плохой, но с правильным текстовым слоем.
  • Оба файла содержат одинаковые изображения.
  • Цель состоит в том, чтобы встроить текстовый слой из второго файла в первый pdf-файл.

2.1.2 Пример задачи

  • Первый файл подготовлен с помощью OCRmyPDF, имеет адекватный размер.
  • Второй файл обработан FineReader, имеет хороший текстовый слой, но очень большой размер.

2.1.3 Варианты решения

  • Удалить изображения из файла input_ocr.pdf с помощью Ghostscript:
    gs -o "input_ocr_textonly.pdf" -sDEVICE=pdfwrite -dFILTERIMAGE "input_ocr.pdf"
    
  • Объединить его с файлом input_image.pdf с помощью pdftk:
    pdftk "input_ocr_textonly.pdf" multistamp "input_image.pdf" output "output.pdf"
    
  • Или объединить его с файлом input_image.pdf с помощью qpdf:
    qpdf --empty --pages "input_image.pdf" -- --underlay "input_ocr_textonly.pdf" -- "output.pdf"
    

2.1.4 Ресурсы


Дмитрий Сергеевич Кулябов
Дмитрий Сергеевич Кулябов
Профессор кафедры теории вероятностей и кибербезопасности

Мои научные интересы включают физику, администрирование Unix и сетей.

Похожие