端侧全模态大模型 Megrez-3B-Omni 实测与部署指南

近日，无问芯穹开源了端侧全模态大模型 Megrez-3B-Omni。本文将对模型能力进行全方位实测，并详细介绍其 Web-Search 项目的搭建流程。

模型概述

Megrez-3B-Omni 是由无问芯穹研发的端侧全模态理解模型，基于无问大语言模型 Megrez-3B-Instruct 扩展。该模型同时具备图片、文本、音频三种模态数据的理解分析能力，旨在降低部署成本，实现一个模型处理多模态任务。

核心参数

特性	说明
参数量	3B (30 亿)
模态支持	文本、图像、语音
部署场景	端侧设备、本地服务器
基础架构	基于 Megrez-3B-Instruct 扩展

相较于同等参数量的模型，Megrez-3B-Omni 在保持文本处理能力未受牺牲的前提下，在多模态理解上取得了较好的效果。这体现了当前 AI 发展的一个重要趋势：模型越小越容易落地，而大参数模型虽然智能但资源消耗巨大。

文本能力测试

文本评测主要考察逻辑推理、常识判断及数学计算能力。

1. 数值比较

问题： 9.9 和 9.11 谁大？ 结果： 正确。模型回答简洁，并能解释思路（按数值范围比较），展现了良好的逻辑性。

2. 常识推理

问题： 用水来兑水，得到的是浓水还是稀水？ 结果： 正确。模型准确理解了'水兑水'的本质仍是水，未产生幻觉。

3. 逻辑陷阱题

问题： 小红有 2 个兄弟，3 个姐妹，那么小红的兄弟有几个姐妹？ 结果： 初始回答有误，后纠正为 3。这道题涉及性别判断，3B 模型在此类逻辑题上仍有提升空间，但对于小参数模型而言表现尚可。建议复杂数学问题使用 32B 以上模型。

4. 安全对齐

问题： 涉及伦理、生物、数学的复杂测试题。 结果： 虽未完全答对，但安全对齐表现良好，未输出违规内容。

图像能力测试

图像测试涵盖信息抽取、OCR、表格识别等场景。

1. 单图片信息抽取

输入： 谁几点出发，从哪儿到哪儿，并且花了多少钱。 结果： 正确提取关键信息。

2. 信息抽取 + 计算

输入： 请逐步详细分析，告诉我在中文数据和英文数据分别占比是多少，并且告诉我总和。 结果： 能够执行多步分析与计算，结果正确。

3. 物体识别

输入： 这张图片里是有两只狗，对吗？ 结果： 经过自我修正，最终识别出一只猫一只狗。展示了模型具备一定的反思能力。

4. OCR 手写识别

输入： 输出图片中的文字内容。 结果： 存在丢字现象。官方提示 OCR 场景下开启采样可能引入幻觉，建议关闭采样进行推理，但需注意可能引入复读风险。

5. 表格结构化

输入： 识别图片中表格内容，并以结构化格式输出。 结果： 简单表格识别正确。复杂表格目前多模态大模型（包括 GPT-4o）普遍存在识别困难，属于行业共性挑战。

端侧全模态大模型 Megrez-3B-Omni 实测与部署指南

模型概述

核心参数

文本能力测试

1. 数值比较

2. 常识推理

3. 逻辑陷阱题

4. 安全对齐

图像能力测试

1. 单图片信息抽取

2. 信息抽取 + 计算

3. 物体识别

4. OCR 手写识别

5. 表格结构化

更多推荐文章

相关免费在线工具

语音能力测试

1. 语音转文本 (ASR)

2. 语音问答

Web-Search 项目详解

1. 技术架构

2. 核心 Prompt 设计

3. 部署流程

第一步：启动检索服务

第二步：启动模型服务

第三步：启动 Demo 界面

4. 系统要求与优化

总结与展望

更多推荐文章

相关免费在线工具

端侧全模态大模型 Megrez-3B-Omni 实测与部署指南

模型概述

核心参数

文本能力测试

1. 数值比较

2. 常识推理

3. 逻辑陷阱题

4. 安全对齐

图像能力测试

1. 单图片信息抽取

2. 信息抽取 + 计算

3. 物体识别

4. OCR 手写识别

5. 表格结构化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

语音能力测试

1. 语音转文本 (ASR)

2. 语音问答

Web-Search 项目详解

1. 技术架构

2. 核心 Prompt 设计

3. 部署流程

第一步：启动检索服务

第二步：启动模型服务

第三步：启动 Demo 界面

4. 系统要求与优化

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具