Тегированный pdf

2026-04-03 · 2 мин. для прочтения
blog computer-science

Тегированный pdf.

Содержание

1 Общая информация

  • Тегированный pdf (tagged pdf) есть PDF-файл, содержащий специальную скрытую разметку (теги), которая описывает логическую структуру документа.
  • Тегированный PDF делает документ машиночитаемым.

2 Аналогия

  • Обычный HTML (веб-страница).
    • Вы видите заголовок <h1>, абзац <p>, список <ul>.
    • Броузер понимает структуру.
  • Обычный PDF (скан или печать).
    • Картинка с текстом.
    • Уровень синтаксиса.
  • Тегированный PDF.
    • Как HTML внутри PDF.
    • У текста есть теги <H1>, <P>, <L>.
    • Уровень семантики.

3 Структура

  • Внутри тегированного PDF есть иерархическое дерево тегов (аналогично DOM-дереву в вебе):
    • Элементы структуры (Structure Elements).
      • <Document>, <Part>, <Sect>, <H1>…=<H6>=, <P>, <L> (список), <LI> (элемент списка), <Table>, <Figure>.
    • Атрибуты.
      • Язык текста, альтернативный текст для картинок (Alt), язык документа.
    • Порядок чтения.
      • Теги располагаются в том порядке, в котором логически нужно читать контент.

4 Зачем это нужно

4.1 Доступность

  • Чтение pdf программами.

4.2 Корректное копирование текста

  • Не захватится текст из соседней колонки.
  • Сохранятся переносы строк.
  • Не пропадут подписи к рисункам.

5 Отличия от нетегированного pdf

ХарактеристикаОбычный PDFТегированный PDF
СтруктураОтсутсвует.Дерево тегов (как HTML).
ЗаголовкиЖирный шрифт большего размера.Тег <H1>, <H2> логически.
СпискиТекст с буллетами в начале.Теги <L>, <LI>, есть вложенность.
КартинкиБайтовая область.Есть область + атрибут Alt (текст для слепых).
ТаблицыНарисованные линии и ячейки.Теги <Table>, <TR>, <TD> с заголовками.

6 Реализации

Дмитрий Сергеевич Кулябов
Authors
Профессор кафедры теории вероятностей и кибербезопасности
Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы. Научные интересы относятся к области теоретической физики и математического моделирования.