近日,无问芯穹开源了端侧全模态大模型 Megrez-3B-Omni。本文将对模型能力进行全方位实测,并详细介绍其 Web-Search 项目的搭建流程。
模型概述
Megrez-3B-Omni 是由无问芯穹研发的端侧全模态理解模型,基于无问大语言模型 Megrez-3B-Instruct 扩展。该模型同时具备图片、文本、音频三种模态数据的理解分析能力,旨在降低部署成本,实现一个模型处理多模态任务。
核心参数
| 特性 | 说明 |
|---|---|
| 参数量 | 3B (30 亿) |
| 模态支持 | 文本、图像、语音 |
| 部署场景 | 端侧设备、本地服务器 |
| 基础架构 | 基于 Megrez-3B-Instruct 扩展 |
相较于同等参数量的模型,Megrez-3B-Omni 在保持文本处理能力未受牺牲的前提下,在多模态理解上取得了较好的效果。这体现了当前 AI 发展的一个重要趋势:模型越小越容易落地,而大参数模型虽然智能但资源消耗巨大。
文本能力测试
文本评测主要考察逻辑推理、常识判断及数学计算能力。
1. 数值比较
问题: 9.9 和 9.11 谁大? 结果: 正确。模型回答简洁,并能解释思路(按数值范围比较),展现了良好的逻辑性。
2. 常识推理
问题: 用水来兑水,得到的是浓水还是稀水? 结果: 正确。模型准确理解了'水兑水'的本质仍是水,未产生幻觉。
3. 逻辑陷阱题
问题: 小红有 2 个兄弟,3 个姐妹,那么小红的兄弟有几个姐妹? 结果: 初始回答有误,后纠正为 3。这道题涉及性别判断,3B 模型在此类逻辑题上仍有提升空间,但对于小参数模型而言表现尚可。建议复杂数学问题使用 32B 以上模型。
4. 安全对齐
问题: 涉及伦理、生物、数学的复杂测试题。 结果: 虽未完全答对,但安全对齐表现良好,未输出违规内容。
图像能力测试
图像测试涵盖信息抽取、OCR、表格识别等场景。
1. 单图片信息抽取
输入: 谁几点出发,从哪儿到哪儿,并且花了多少钱。 结果: 正确提取关键信息。
2. 信息抽取 + 计算
输入: 请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和。 结果: 能够执行多步分析与计算,结果正确。
3. 物体识别
输入: 这张图片里是有两只狗,对吗? 结果: 经过自我修正,最终识别出一只猫一只狗。展示了模型具备一定的反思能力。
4. OCR 手写识别
输入: 输出图片中的文字内容。 结果: 存在丢字现象。官方提示 OCR 场景下开启采样可能引入幻觉,建议关闭采样进行推理,但需注意可能引入复读风险。
5. 表格结构化
输入: 识别图片中表格内容,并以结构化格式输出。 结果: 简单表格识别正确。复杂表格目前多模态大模型(包括 GPT-4o)普遍存在识别困难,属于行业共性挑战。


