Тегированный pdf

Тегированный pdf

2026-04-03 · 2 мин. для прочтения
blog computer-science

Тегированный pdf.

Содержание

1 Общая информация

  • Тегированный pdf (tagged pdf) есть PDF-файл, содержащий специальную скрытую разметку (теги), которая описывает логическую структуру документа: заголовок, абзац, список, таблица, подпись к рисунку и т.д.
  • Тегированный PDF делает документ машиночитаемым.

2 Аналогия

  • Обычный HTML (веб-страница).
    • Вы видите заголовок <h1>, абзац <p>, список <ul>.
    • Броузер понимает структуру.
  • Обычный PDF (скан или печать).
    • Картинка с текстом.
    • Уровень синтаксиса.
  • Тегированный PDF.
    • Как HTML внутри PDF.
    • У текста есть теги <H1>, <P>, <L>.
    • Уровень семантики.

3 Структура

  • Внутри тегированного PDF есть иерархическое дерево тегов (аналогично DOM-дереву в вебе):
    • Элементы структуры (Structure Elements).
      • <Document>, <Part>, <Sect>, <H1>…=<H6>=, <P>, <L> (список), <LI> (элемент списка), <Table>, <Figure>.
    • Атрибуты.
      • Язык текста, альтернативный текст для картинок (Alt), язык документа.
    • Порядок чтения.
      • Теги располагаются в том порядке, в котором логически нужно читать контент.

4 Зачем это нужно

4.1 Доступность

  • Например, для чтения pdf программами для слепых и слабовидящих людей.

4.2 Переформатирование на маленьких экранах

  • Совершенствование технологии reflow для тегированного pdf.

4.3 Корректное копирование текста

  • Не захватится текст из соседней колонки.
  • Сохранятся переносы строк.
  • Не выпадут подписи к рисункам.

5 Разница с обычным pdf

ХарактеристикаОбычный PDFТегированный PDF
СтруктураНет. Только позиции символов.Дерево тегов (как HTML).
ЗаголовкиЖирный шрифт большего размера.Тег <H1>, <H2> логически.
СпискиТекст с символами “•” и “1.” в начале.Теги <L>, <LI>, есть вложенность.
КартинкиЕсть область с байтами картинки.Есть область + атрибут Alt (текст для слепых).
ТаблицыНарисованные линии и ячейки.Теги <Table>, <TR>, <TD> с заголовками.
Скринридер“Текст… текст… котировка… (не читает)”.Читает структуру и порядок.
Дмитрий Сергеевич Кулябов
Authors
Профессор кафедры теории вероятностей и кибербезопасности
Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы. Научные интересы относятся к области теоретической физики и математического моделирования.