文心一言与通义千问大模型能力对比评测

本次评测对比了文心一言与通义千问在逻辑推理、历史知识、计算、创作及图像识别等维度的表现。结果显示两者在多数任务中均达到优秀水平，尤其在基础问答和历史知识上表现稳定。图像理解与复杂伦理判断环节展现了模型差异，整体而言两款大模型均具备较强的综合处理能力。

氛围发布于 2026/3/27更新于 2026/7/2737 浏览

近期，我们选取了国内两款主流的大语言模型——文心一言和通义千问，进行了一系列多维度的能力测试。测试范围涵盖逻辑推理、历史知识、计算能力、创作、角色扮演以及图像识别等场景。以下是具体的评测结果与分析。

在基础认知与逻辑处理方面，两款模型均展现了较高的水准。

序号	考察能力	题目	回复摘要	评价
1	逻辑推理	过河问题（狗、兔、菜）	文心一言：分四步详细阐述，逻辑闭环；通义千问：步骤清晰，简洁明了。	优秀
2	总结归纳	猫狗名字规律推测羊名	文心一言：指出无直接依据，仅能推测；通义千问：建议符合规律的命名如'咩咩'。	优秀/良好
3	计算能力	753×951=？	两者均给出正确结果 716103，文心一言展示了计算过程。	优秀
4	历史知识	'五代十国'朝代	两者均准确列出五代与十国的具体政权名称。	优秀
5	历史 + 逻辑	刘备统一天下策略	文心一言侧重后方稳固与人才；通义千问强调联吴抗曹与内部整合。	优秀
6	创作能力	科技公司年会发言稿	两者均在百字内完成得体、鼓舞人心的发言稿。	优秀
7	角色 + 创作	学生健身计划	文心一言侧重核心与有氧；通义千问增加力量塑形细节。	优秀/良好
8	续写	《红楼梦》后 40 回设计	文心一言侧重因果与重逢；通义千问侧重隐居与看淡红尘。	优秀
9	伦理问题	电车难题	两者均指出无标准答案，倾向于遵守规则或权衡利弊。	优秀
10	记忆能力

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

序号	考察能力	题目	回复摘要	评价
12	平面设计	设计公司 Logo	文心一言：几何图形 + 箭头，科技蓝；通义千问：重叠正方形，镂空圆形。	良好
13	文生图	花丛中的女孩	文心一言：描述画面氛围；通义千问：提供生成后的画面描述。	优秀
14	图像识别	识别景点	两者均准确识别为北京天坛祈年殿，并简述特征。	优秀
15	图像识别	识别迈克尔·乔丹	两者均准确识别身份及球衣号码，补充背景信息。	优秀
16	图像识别	识别人数与动作	两者均识别出 7 人合影，描述服装与状态。	优秀
17	图像识别	表情分析	两者均分析出大笑、愉悦的情绪状态。	优秀
18	图像识别	年龄估算	两者均估算为 30 岁左右。	合格
19	图像 + 数学	识别并求解数学题	此处未提供具体回复内容，需结合实际输入验证。	-