Тегированный pdf
2026-04-03
·
2 мин. для прочтения
Тегированный pdf.
Содержание
1 Общая информация
- Тегированный pdf (tagged pdf) есть PDF-файл, содержащий специальную скрытую разметку (теги), которая описывает логическую структуру документа.
- Тегированный PDF делает документ машиночитаемым.
2 Аналогия
- Обычный HTML (веб-страница).
- Вы видите заголовок
<h1>, абзац<p>, список<ul>. - Броузер понимает структуру.
- Вы видите заголовок
- Обычный PDF (скан или печать).
- Картинка с текстом.
- Уровень синтаксиса.
- Тегированный PDF.
- Как HTML внутри PDF.
- У текста есть теги
<H1>,<P>,<L>. - Уровень семантики.
3 Структура
- Внутри тегированного PDF есть иерархическое дерево тегов (аналогично DOM-дереву в вебе):
- Элементы структуры (Structure Elements).
<Document>,<Part>,<Sect>,<H1>…=<H6>=,<P>,<L>(список),<LI>(элемент списка),<Table>,<Figure>.
- Атрибуты.
- Язык текста, альтернативный текст для картинок (
Alt), язык документа.
- Язык текста, альтернативный текст для картинок (
- Порядок чтения.
- Теги располагаются в том порядке, в котором логически нужно читать контент.
- Элементы структуры (Structure Elements).
4 Зачем это нужно
4.1 Доступность
- Чтение pdf программами.
4.2 Корректное копирование текста
- Не захватится текст из соседней колонки.
- Сохранятся переносы строк.
- Не пропадут подписи к рисункам.
5 Отличия от нетегированного pdf
| Характеристика | Обычный PDF | Тегированный PDF |
|---|---|---|
| Структура | Отсутсвует. | Дерево тегов (как HTML). |
| Заголовки | Жирный шрифт большего размера. | Тег <H1>, <H2> логически. |
| Списки | Текст с буллетами в начале. | Теги <L>, <LI>, есть вложенность. |
| Картинки | Байтовая область. | Есть область + атрибут Alt (текст для слепых). |
| Таблицы | Нарисованные линии и ячейки. | Теги <Table>, <TR>, <TD> с заголовками. |
