Распознавание pdf. OCRmyPDF
Распознавание pdf. OCRmyPDF
Содержание
1 Общая информация
- Репозиторий: https://github.com/ocrmypdf/OCRmyPDF
- Сайт: https://ocrmypdf.readthedocs.io/
2 Примеры использования
Список языков для распознавания:
1tesseract --list-langs
Преобразовать сканированный файл в файл PDF/A с распознаванием русского и английского языков:
1ocrmypdf -l rus+eng input.pdf output.pdf
Заменить отсканированный PDF-файл PDF/A-файлом:
1ocrmypdf input.pdf
Пропустить страницы входного PDF-файла смешанного формата, которые уже содержат текст:
1ocrmypdf --skip-text input.pdf output.pdf
Очистите, исправьте перекос и поверните плохо отсканированные страницы:
1ocrmypdf --clean --deskew --rotate-pages input.pdf output.pdf
Убрать фон:
1ocrmypdf --clean --remove-background input.pdf output.pdf
Разделить сдвоенные страницы:
1ocrmypdf --clean --clean-final --unpaper-args '--layout double' input.pdf output.pdf
Контролируем оптимизацию:
1ocrmypdf --optimize 3 --jbig2-lossy input.pdf output.pdf
Распознавание с оптимизацией:
1ocrmypdf -l rus+eng --optimize 3 --jbig2-lossy input.pdf output.pdf
Задать метаданные PDF-файла:
1ocrmypdf --skip-text --title "<title>" --author "<author>" --subject "<subject>" --keywords "<keyword; key phrase; ...>" input_file.pdf output.pdf
Не распознавать pdf-файл
- При установке параметра
--tesseract-timeout 0
OCRmyPDF будет обрабатывать изображения без выполнения OCR.
1ocrmypdf --tesseract-timeout=0 --remove-background input.pdf output.pdf
- При установке параметра
Удалить весь распознанный текст из pdf-файла:
1ocrmypdf --tesseract-timeout 0 --optimize 3 --force-ocr input.pdf output.pdf
Оптимизация изображений без выполнения распознавания:
1ocrmypdf --tesseract-timeout=0 --optimize 3 --skip-text input.pdf output.pdf