Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测

近期 Qwen 和 DeepSeek 都开源了多模态模型。Qwen 开源的是 Qwen2.5-VL，专注多模态（图像 + 视频）理解；DeepSeek 开源的是 Janus-Pro，既可以进行图像理解，也可以进行图片生成。

尽管 Janus-Pro 热度很高，但我实测了其图像理解能力，发现表现并不理想。本文旨在通过实际测试，理性评价两者的图像理解能力，避免无脑吹捧。

声明：本文没有贬低 Janus-Pro-7B 的意思，也未测试其图像生成能力，仅从图像理解角度进行评价。

为了有对比，我将 Qwen2.5-VL 与 Janus-Pro-7B 进行相同测试，比较结果。

测试结论

与 72B 模型不同，Qwen2.5-VL-7B 在表格解析上效果不理想，可能受参数量限制。
Janus-Pro-7B 经常出现不回答的情况，且生成结果混乱。
测试代码分别来自官方 Github 的 HF 代码，直接测试。

图像理解测试

1. 表格识别

Prompt：

Role   你是一位有多年经验的 OCR 表格识别专家。
Goals   需要通过给定的图片，识别表格里的内容，并以 html 表格结果格式输出结果。
Constrains   - 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入 html 表格结构中；
             - 图片中的表格单元格中可能存在一些占位符需要识别出来，例如 "-"、"—"、"/"等；
             - 输出表格结构一定遵循图片中的结构，表格结构完全一致；
             - 特别注意图片中存在合并单元格的情况，结构不要出错；
             - 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；
             - 最终输出结果需要是 html 格式的表格内容。
Initialization   请仔细思考后，输出 html 表格结果。

测试 1：
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 错了，内容都不对。
测试 2：
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 不正面回答，图像已经传了，但是它不理解。
测试 3：
- Qwen2.5-VL-7B 结构错误。
- Janus-Pro-7B 根本不回答。

总结：昨天因为表格解析都出来了，我以为 7B 也能出来，不过也没出来，只能说明多模态再做表格解析部分还是有门槛的。光有相对的训练策略还不够，还需要模型足够大。

2. 数学题

Prompt：请解题。

测试 4：
- Qwen2.5-VL-7B 对了。
- Janus-Pro-7B 错了。
测试 5：
- Qwen2.5-VL-7B 对了，C 方程为 ;。
- Janus-Pro-7B 错了。

3. 理解题目

测试 6：
- Query：请逐步详细分析，告诉我在中文数据和英文数据分别占比是多少，并且告诉我总和。
- 结果：Qwen2.5-VL-7B 对了，Janus-Pro-7B 没识别对。
测试 7：
- Query：请逐步详细分析，这张图片里是有两只狗，对吗。

Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测

Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测

测试结论

图像理解测试

1. 表格识别

2. 数学题

3. 理解题目

更多推荐文章

相关免费在线工具

测试代码

Qwen2.5-VL-7B 测试代码

Janus-Pro-7B 测试代码

更多推荐文章

相关免费在线工具

Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测

Qwen2.5-VL 与 Janus-Pro-7B 视觉理解能力对比评测

测试结论

图像理解测试

1. 表格识别

2. 数学题

3. 理解题目

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

测试代码

Qwen2.5-VL-7B 测试代码

Janus-Pro-7B 测试代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具