Подготовка документов для чтения

Подготовка документов для чтения.

Содержание

1 Преобразование формата

2 Чистка документа

2.1 Удалить текстовый слой

  • Ghostscript поддерживает параметры, которые позволяют удалить из PDF-файла либо весь текст, либо все изображения, либо все векторные элементы.
  • Удалить весь текст из входного PDF-файла:
    gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf
    
  • Удалить все растровые элементы из входного PDF-файла:
    gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
    
  • Удалить все векторные элементы из входного PDF-файла:
    gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf
    
  • Можно комбинировать любой из двух вышеуказанных параметров (объединение всех трёх приведет к созданию пустых страниц):
    gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
    gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf
    gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf
    
    gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT input.pdf
    gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf
    gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT input.pdf
    

2.2 unpaper

2.3 ScanTailor

3 Распознавание документа

4 Создание оглавления

4.1 Общая информация

  • Оглавление упрощает ориентацию в книге.
  • Оглавление позволяет:
    • всегда иметь под рукой список глав и заголовков книги;
    • быстро переходить к началу нужной главы или другим важным местам в книге;
    • структурировать заметки к книге.

4.2 Ссылки

4.3 HandyOutliner for DjVu / PDF

4.4 Pdf & Djvu Bookmarker

4.5 jpdfbookmarks


Links to this note

Дмитрий Сергеевич Кулябов
Дмитрий Сергеевич Кулябов
Профессор кафедры теории вероятностей и кибербезопасности

Мои научные интересы включают физику, администрирование Unix и сетей.

Похожие