Тегированный pdf
2026-04-03
·
2 мин. для прочтения
Тегированный pdf.
Содержание
1 Общая информация
- Тегированный pdf (tagged pdf) есть PDF-файл, содержащий специальную скрытую разметку (теги), которая описывает логическую структуру документа: заголовок, абзац, список, таблица, подпись к рисунку и т.д.
- Тегированный PDF делает документ машиночитаемым.
2 Аналогия
- Обычный HTML (веб-страница).
- Вы видите заголовок
<h1>, абзац<p>, список<ul>. - Броузер понимает структуру.
- Вы видите заголовок
- Обычный PDF (скан или печать).
- Картинка с текстом.
- Уровень синтаксиса.
- Тегированный PDF.
- Как HTML внутри PDF.
- У текста есть теги
<H1>,<P>,<L>. - Уровень семантики.
3 Структура
- Внутри тегированного PDF есть иерархическое дерево тегов (аналогично DOM-дереву в вебе):
- Элементы структуры (Structure Elements).
<Document>,<Part>,<Sect>,<H1>…=<H6>=,<P>,<L>(список),<LI>(элемент списка),<Table>,<Figure>.
- Атрибуты.
- Язык текста, альтернативный текст для картинок (
Alt), язык документа.
- Язык текста, альтернативный текст для картинок (
- Порядок чтения.
- Теги располагаются в том порядке, в котором логически нужно читать контент.
- Элементы структуры (Structure Elements).
4 Зачем это нужно
4.1 Доступность
- Например, для чтения pdf программами для слепых и слабовидящих людей.
4.2 Переформатирование на маленьких экранах
- Совершенствование технологии reflow для тегированного pdf.
4.3 Корректное копирование текста
- Не захватится текст из соседней колонки.
- Сохранятся переносы строк.
- Не выпадут подписи к рисункам.
5 Разница с обычным pdf
| Характеристика | Обычный PDF | Тегированный PDF |
|---|---|---|
| Структура | Нет. Только позиции символов. | Дерево тегов (как HTML). |
| Заголовки | Жирный шрифт большего размера. | Тег <H1>, <H2> логически. |
| Списки | Текст с символами “•” и “1.” в начале. | Теги <L>, <LI>, есть вложенность. |
| Картинки | Есть область с байтами картинки. | Есть область + атрибут Alt (текст для слепых). |
| Таблицы | Нарисованные линии и ячейки. | Теги <Table>, <TR>, <TD> с заголовками. |
| Скринридер | “Текст… текст… котировка… (не читает)”. | Читает структуру и порядок. |

Authors
Профессор кафедры теории вероятностей и кибербезопасности
Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы.
Научные интересы относятся к области теоретической физики и математического моделирования.