Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测
近期 Qwen 和 DeepSeek 都开源了多模态模型。Qwen 开源的是 Qwen2.5-VL,专注多模态(图像 + 视频)理解;DeepSeek 开源的是 Janus-Pro,既可以进行图像理解,也可以进行图片生成。
尽管 Janus-Pro 热度很高,但我实测了其图像理解能力,发现表现并不理想。本文旨在通过实际测试,理性评价两者的图像理解能力,避免无脑吹捧。
声明:本文没有贬低 Janus-Pro-7B 的意思,也未测试其图像生成能力,仅从图像理解角度进行评价。
为了有对比,我将 Qwen2.5-VL 与 Janus-Pro-7B 进行相同测试,比较结果。
测试结论
- 与 72B 模型不同,Qwen2.5-VL-7B 在表格解析上效果不理想,可能受参数量限制。
- Janus-Pro-7B 经常出现不回答的情况,且生成结果混乱。
- 测试代码分别来自官方 Github 的 HF 代码,直接测试。
图像理解测试
1. 表格识别
Prompt:
Role 你是一位有多年经验的 OCR 表格识别专家。
Goals 需要通过给定的图片,识别表格里的内容,并以 html 表格结果格式输出结果。
Constrains - 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入 html 表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如 "-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 最终输出结果需要是 html 格式的表格内容。
Initialization 请仔细思考后,输出 html 表格结果。
-
测试 1:
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 错了,内容都不对。
-
测试 2:
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 不正面回答,图像已经传了,但是它不理解。
-
测试 3:
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 根本不回答。
总结:昨天因为表格解析都出来了,我以为 7B 也能出来,不过也没出来,只能说明多模态再做表格解析部分还是有门槛的。光有相对的训练策略还不够,还需要模型足够大。
2. 数学题
Prompt:请解题。
-
测试 4:
- Qwen2.5-VL-7B 对了。
- Janus-Pro-7B 错了。
-
测试 5:
- Qwen2.5-VL-7B 对了,C 方程为
;。 - Janus-Pro-7B 错了。
- Qwen2.5-VL-7B 对了,C 方程为
3. 理解题目
-
测试 6:
- Query:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和。
- 结果:Qwen2.5-VL-7B 对了,Janus-Pro-7B 没识别对。
-
测试 7:
- Query:请逐步详细分析,这张图片里是有两只狗,对吗。


