Markdown. Утилита markitdown
2026-03-27
·
1 мин. для прочтения
Markdown. Утилита markitdown.
Содержание
1 Общая информация
- Репозиторий: https://github.com/microsoft/markitdown
- Библиотека с открытым исходным кодом, разработанная компанией Microsoft.
- Предназначена для преобразования различных типов файлов (в основном офисных) в формат Markdown.
Таблица 1:
Поддерживаемые форматы
| Категория | Расширения / типы |
|---|---|
| Документы | PDF, PowerPoint (.pptx), Word (.docx) |
| Таблицы | Excel (.xlsx, .xls), CSV, JSON, XML |
| Веб-страницы | HTML, EPUB |
| Изображения | JPEG, PNG, GIF и др. — через OCR (Tesseract) |
| Аудио | MP3, WAV и др. — через распознавание речи |
| Архивы | ZIP (рекурсивно обрабатывает содержимое) |
| Видео (ссылки) | YouTube — извлекает субтитры |
2 Установка
- Чтобы получить все возможности (OCR, распознавание речи, работа с Excel и т.д.), рекомендуется устанавливать с опцией
[all]:
uv tool install 'markitdown[all]'
3 Использование (командная строка)
# Конвертировать PDF и вывести результат в консоль
markitdown отчет.pdf
# Сохранить результат в файл
markitdown презентация.pptx -o текст.md
# Обработать ZIP-архив (все файлы внутри)
markitdown архив.zip -o итог.md
4 Использование (python)
from markitdown import MarkItDown
# Создаём объект конвертера
converter = MarkItDown()
# Конвертируем файл
result = converter.convert("таблица.xlsx")
# Печатаем полученный Markdown
print(result.text_content)
# Если нужно работать с содержимым
with open("результат.md", "w", encoding="utf-8") as f:
f.write(result.text_content)

Authors
Профессор кафедры теории вероятностей и кибербезопасности
Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы.
Научные интересы относятся к области теоретической физики и математического моделирования.