Markdown. Утилита markitdown

Markdown. Утилита markitdown

2026-03-27 · 1 мин. для прочтения
blog

Markdown. Утилита markitdown.

Содержание

1 Общая информация

  • Репозиторий: https://github.com/microsoft/markitdown
  • Библиотека с открытым исходным кодом, разработанная компанией Microsoft.
  • Предназначена для преобразования различных типов файлов (в основном офисных) в формат Markdown.
Таблица 1: Поддерживаемые форматы
КатегорияРасширения / типы
ДокументыPDF, PowerPoint (.pptx), Word (.docx)
ТаблицыExcel (.xlsx, .xls), CSV, JSON, XML
Веб-страницыHTML, EPUB
ИзображенияJPEG, PNG, GIF и др. — через OCR (Tesseract)
АудиоMP3, WAV и др. — через распознавание речи
АрхивыZIP (рекурсивно обрабатывает содержимое)
Видео (ссылки)YouTube — извлекает субтитры

2 Установка

  • Чтобы получить все возможности (OCR, распознавание речи, работа с Excel и т.д.), рекомендуется устанавливать с опцией [all]:
uv tool install 'markitdown[all]'

3 Использование (командная строка)

# Конвертировать PDF и вывести результат в консоль
markitdown отчет.pdf

# Сохранить результат в файл
markitdown презентация.pptx -o текст.md

# Обработать ZIP-архив (все файлы внутри)
markitdown архив.zip -o итог.md

4 Использование (python)

from markitdown import MarkItDown

# Создаём объект конвертера
converter = MarkItDown()

# Конвертируем файл
result = converter.convert("таблица.xlsx")

# Печатаем полученный Markdown
print(result.text_content)

# Если нужно работать с содержимым
with open("результат.md", "w", encoding="utf-8") as f:
    f.write(result.text_content)
Дмитрий Сергеевич Кулябов
Authors
Профессор кафедры теории вероятностей и кибербезопасности
Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы. Научные интересы относятся к области теоретической физики и математического моделирования.