Подготовка документов для чтения
Подготовка документов для чтения.
Содержание
1 Преобразование формата
2 Чистка документа
2.1 Удалить текстовый слой
- Ghostscript поддерживает параметры, которые позволяют удалить из PDF-файла либо весь текст, либо все изображения, либо все векторные элементы.
- Удалить весь текст из входного PDF-файла:
gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf
- Удалить все растровые элементы из входного PDF-файла:
gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
- Удалить все векторные элементы из входного PDF-файла:
gs -o no-more-texts.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf
- Можно комбинировать любой из двух вышеуказанных параметров (объединение всех трёх приведет к созданию пустых страниц):
gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT input.pdf gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT input.pdf
2.2 unpaper
- Репозиторий: https://github.com/Flameeyes/unpaper
- Сайт: https://www.flameeyes.com/projects/unpaper
- Инструмент постобработки отсканированных изображений.
- Основная цель — сделать отсканированные страницы книги более читабельными.
2.3 ScanTailor
- Сайт: https://scantailor.org/
- Репозиторий: https://github.com/4lex4/scantailor-advanced
- ScanTailor Advanced объединяет функции версий ScanTailor Featured и ScanTailor Enhanced.
3 Распознавание документа
4 Создание оглавления
4.1 Общая информация
- Оглавление упрощает ориентацию в книге.
- Оглавление позволяет:
- всегда иметь под рукой список глав и заголовков книги;
- быстро переходить к началу нужной главы или другим важным местам в книге;
- структурировать заметки к книге.
4.2 Ссылки
4.3 HandyOutliner for DjVu / PDF
- Сайт: https://handyoutlinerfo.sourceforge.net/index_ru.htm
- Sourceforge: https://sourceforge.net/projects/handyoutlinerfo/
- Требует .NET 4.0.
- Под Linux работает под mono.
4.4 Pdf & Djvu Bookmarker
- Сайт: https://sourceforge.net/projects/djvubookmarker/
- Создание оглавление производится с одновременным просмотром самого документа.
4.5 jpdfbookmarks
- Репозиторий: https://github.com/SemanticBeeng/jpdfbookmarks
- Сайт: https://sourceforge.net/projects/jpdfbookmarks/