什么是 MinerU?
MinerU 是一个将复杂文档(如 PDF)转换为 LLM 就绪的 markdown/JSON 格式的工具,用于 Agentic 工作流。相比传统 PDF 解析工具,MinerU 在文档结构解析、多媒体提取、公式识别等方面有着显著优势。
主要功能包括:
- 文档结构解析:移除页眉页脚、脚注、页码等,确保语义连贯性
- 内容提取:输出按人类可读顺序排列的文本,支持单列、多列和复杂布局
- 格式保持:保留原始文档结构(标题、段落、列表等)
- 多媒体提取:提取图像、图像描述、表格、表格标题和脚注
- 公式识别:自动将文档中的公式转换为 LaTeX 格式
- 表格识别:自动将表格转换为 HTML 格式
- OCR 支持:自动检测扫描版 PDF 并启用 OCR 功能,支持 84 种语言
- 多平台支持:兼容 Windows、Linux、Mac 平台,支持 CPU/GPU/NPU 加速
环境准备与安装
硬件要求
- CPU 推理:支持纯 CPU 环境
- GPU 要求:Turing 架构及以上,6GB+ 显存(pipeline 后端)或 8GB+ 显存(VLM 后端)
- 内存要求:最低 16GB+,推荐 32GB+
- 磁盘空间:20GB+,建议 SSD
- Python 版本:3.10-3.13
安装方法
使用 pip 或 uv 安装
pip install --upgrade pip
pip install uv
pip install -U "mineru[core]"
从源码安装
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core]
Docker 部署
项目提供 Docker 部署方式,可快速搭建环境解决兼容性问题
配置文件详解
MinerU 提供了灵活的配置选项,主要包括:
- 解析后端设置(pipeline 和 VLM 两种)
- 输出格式选择(Markdown、JSON 等)

