Распознавание pdf. OCRmyPDF

Распознавание pdf. OCRmyPDF

Содержание

1 Общая информация

2 Примеры использования

  • Список языков для распознавания:

    1tesseract --list-langs
    
  • Преобразовать сканированный файл в файл PDF/A с распознаванием русского и английского языков:

    1ocrmypdf -l rus+eng input.pdf output.pdf
    
  • Заменить отсканированный PDF-файл PDF/A-файлом:

    1ocrmypdf input.pdf
    
  • Пропустить страницы входного PDF-файла смешанного формата, которые уже содержат текст:

    1ocrmypdf --skip-text input.pdf output.pdf
    
  • Очистите, исправьте перекос и поверните плохо отсканированные страницы:

    1ocrmypdf --clean --deskew --rotate-pages input.pdf output.pdf
    
  • Убрать фон:

    1ocrmypdf --clean --remove-background input.pdf output.pdf
    
  • Разделить сдвоенные страницы:

    1ocrmypdf --clean --clean-final --unpaper-args '--layout double' input.pdf output.pdf
    
  • Контролируем оптимизацию:

    1ocrmypdf --optimize 3 --jbig2-lossy input.pdf output.pdf
    
  • Распознавание с оптимизацией:

    1ocrmypdf -l rus+eng --optimize 3 --jbig2-lossy input.pdf output.pdf
    
  • Задать метаданные PDF-файла:

    1ocrmypdf --skip-text --title "<title>" --author "<author>" --subject "<subject>" --keywords "<keyword; key phrase; ...>" input_file.pdf output.pdf
    
  • Не распознавать pdf-файл

    • При установке параметра --tesseract-timeout 0 OCRmyPDF будет обрабатывать изображения без выполнения OCR.
    1ocrmypdf --tesseract-timeout=0 --remove-background input.pdf output.pdf
    
  • Удалить весь распознанный текст из pdf-файла:

    1ocrmypdf --tesseract-timeout 0 --optimize 3 --force-ocr input.pdf output.pdf
    
  • Оптимизация изображений без выполнения распознавания:

    1ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf
    

Дмитрий Сергеевич Кулябов
Дмитрий Сергеевич Кулябов
Профессор кафедры теории вероятностей и кибербезопасности

Мои научные интересы включают физику, администрирование Unix и сетей.

Похожие