四大开源 OCR 模型深度对比：MinerU 2.5 至 PaddleOCR-VL-1.5

2025 年末到 2026 年初，开源 OCR 领域迎来了史上最密集的技术爆发。不到三个月内，四款重量级模型接连登场——上海 AI Lab 的 MinerU 2.5、DeepSeek 的 DeepSeek-OCR 2、腾讯的 HunyuanOCR、百度的 PaddleOCR-VL-1.5。它们参数量均在 1B 左右，却在 OmniDocBench 上打出了 90%~95% 的惊人精度，甚至全面超越了数百亿参数的通用大模型。本文将从架构设计、核心创新、训练策略、性能数据、应用场景五个维度进行深度横向对比，帮你找到最适合自己需求的那一款。

一、时间线与背景：一场百日战争

时间	事件
2025.09.26	上海 AI Lab 发布 MinerU 2.5，1.2B 参数，首创"粗到细"解耦架构
2025.11.25	腾讯混元发布 HunyuanOCR，1B 参数，纯端到端 VLM，OmniDocBench 94.10
2026.01.27	DeepSeek 发布 DeepSeek-OCR 2，引入因果流视觉编码，OmniDocBench 91.09
2026.01.29	百度飞桨发布 PaddleOCR-VL-1.5，0.9B 参数，OmniDocBench 94.5 登顶

短短四个月，OmniDocBench 的 SOTA 被刷新了四次。这不是巧合——OCR 正处于从传统流水线向多模态视觉语言模型迁移的关键拐点，各大团队都在这个窗口期抢占技术制高点。

二、架构：四条截然不同的道路

四款模型虽然都瞄准了同一个目标——高精度文档解析，但在架构设计上走出了四条风格迥异的路线。理解这些差异，是选型的第一步。

2.1 MinerU 2.5：解耦式"先粗后精"

核心理念：将全局布局分析与局部内容识别彻底解耦

阶段一：全局布局分析（粗） ├── 输入：下采样缩略图（1036×1036） ├── 任务：检测文本块、表格、公式、图片等元素 + 阅读顺序 └── 输出：所有元素的边界框和类别 阶段二：局部内容识别（细） ├── 输入：从原始高分辨率图像裁剪的各元素区域 ├── 任务：对每个裁剪区域进行精细识别 └── 输出：文本 (Markdown) / 表格 (OTSL→HTML) / 公式 (LaTeX)

MinerU 2.5 的精妙之处在于：第一阶段在缩略图上工作，计算量极低；第二阶段只处理裁剪出的关键区域，避免了对整页高分辨率图像做全局注意力。这种空间维度上的分治策略将计算复杂度从 O(N^2) 降低了一个数量级。

模型组件：

组件	实现	参数量
视觉编码器	SigLIP（图像特征提取）	~400M
语言解码器	基于 Qwen2 架构微调	~800M
总计		1.2B

独特优势： 双后端架构设计——同时提供传统 Pipeline 后端（基于多模型级联）和 VLM 后端（基于视觉语言模型），用户可根据场景灵活切换。

2.2 DeepSeek-OCR 2：因果流视觉编码

核心理念：用 LLM 替代 CLIP 编码器，在编码阶段就完成语义重排

视觉分词器（SAM-, M）→ 视觉 Token ↓ LLM 视觉编码器（Qwen2） ├── 视觉 Token 间：双向注意力（保持全局感知） └── 查询 Token 间：因果注意力（模仿人类阅读逻辑） ↓ 有序的视觉特征序列 → LLM 解码器 → 文本输出

维度	用途
文本维度	Token 在序列中的位置
高度维度	文字在页面上的垂直位置
宽度维度	文字在页面上的水平位置
时间维度	视频帧的时间戳

四大开源 OCR 模型深度对比：MinerU 2.5 至 PaddleOCR-VL-1.5

一、时间线与背景：一场百日战争

二、架构：四条截然不同的道路

2.1 MinerU 2.5：解耦式"先粗后精"

2.2 DeepSeek-OCR 2：因果流视觉编码

更多推荐文章

相关免费在线工具

2.3 HunyuanOCR：原生多模态端到端

2.4 PaddleOCR-VL-1.5：两阶段版面驱动

更多推荐文章

相关免费在线工具

四大开源 OCR 模型深度对比：MinerU 2.5 至 PaddleOCR-VL-1.5

一、时间线与背景：一场百日战争

二、架构：四条截然不同的道路

2.1 MinerU 2.5：解耦式"先粗后精"

2.2 DeepSeek-OCR 2：因果流视觉编码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 HunyuanOCR：原生多模态端到端

2.4 PaddleOCR-VL-1.5：两阶段版面驱动

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具