2025 年末到 2026 年初,开源 OCR 领域迎来了史上最密集的技术爆发。不到三个月内,四款重量级模型接连登场——上海 AI Lab 的 MinerU 2.5、DeepSeek 的 DeepSeek-OCR 2、腾讯的 HunyuanOCR、百度的 PaddleOCR-VL-1.5。它们参数量均在 1B 左右,却在 OmniDocBench 上打出了 90%~95% 的惊人精度,甚至全面超越了数百亿参数的通用大模型。本文将从架构设计、核心创新、训练策略、性能数据、应用场景五个维度进行深度横向对比,帮你找到最适合自己需求的那一款。
一、时间线与背景:一场百日战争
| 时间 | 事件 |
|---|---|
| 2025.09.26 | 上海 AI Lab 发布 MinerU 2.5,1.2B 参数,首创"粗到细"解耦架构 |
| 2025.11.25 | 腾讯混元发布 HunyuanOCR,1B 参数,纯端到端 VLM,OmniDocBench 94.10 |
| 2026.01.27 | DeepSeek 发布 DeepSeek-OCR 2,引入因果流视觉编码,OmniDocBench 91.09 |
| 2026.01.29 | 百度飞桨发布 PaddleOCR-VL-1.5,0.9B 参数,OmniDocBench 94.5 登顶 |
短短四个月,OmniDocBench 的 SOTA 被刷新了四次。这不是巧合——OCR 正处于从传统流水线向多模态视觉语言模型迁移的关键拐点,各大团队都在这个窗口期抢占技术制高点。
二、架构:四条截然不同的道路
四款模型虽然都瞄准了同一个目标——高精度文档解析,但在架构设计上走出了四条风格迥异的路线。理解这些差异,是选型的第一步。
2.1 MinerU 2.5:解耦式"先粗后精"
核心理念:将全局布局分析与局部内容识别彻底解耦
阶段一:全局布局分析(粗) ├── 输入:下采样缩略图(1036×1036) ├── 任务:检测文本块、表格、公式、图片等元素 + 阅读顺序 └── 输出:所有元素的边界框和类别 阶段二:局部内容识别(细) ├── 输入:从原始高分辨率图像裁剪的各元素区域 ├── 任务:对每个裁剪区域进行精细识别 └── 输出:文本 (Markdown) / 表格 (OTSL→HTML) / 公式 (LaTeX)
MinerU 2.5 的精妙之处在于:第一阶段在缩略图上工作,计算量极低;第二阶段只处理裁剪出的关键区域,避免了对整页高分辨率图像做全局注意力。这种空间维度上的分治策略将计算复杂度从 O(N^2) 降低了一个数量级。
模型组件:
| 组件 | 实现 | 参数量 |
|---|---|---|
| 视觉编码器 | SigLIP(图像特征提取) | ~400M |
| 语言解码器 | 基于 Qwen2 架构微调 | ~800M |
| 总计 | 1.2B |
独特优势: 双后端架构设计——同时提供传统 Pipeline 后端(基于多模型级联)和 VLM 后端(基于视觉语言模型),用户可根据场景灵活切换。
2.2 DeepSeek-OCR 2:因果流视觉编码
核心理念:用 LLM 替代 CLIP 编码器,在编码阶段就完成语义重排
视觉分词器(SAM-base, M)→ 视觉 Token ↓ LLM 视觉编码器(Qwen2) ├── 视觉 Token 间:双向注意力(保持全局感知) └── 查询 Token 间:因果注意力(模仿人类阅读逻辑) ↓ 有序的视觉特征序列 → LLM 解码器 → 文本输出

