文心一言与通义千问大模型能力评测
本文对文心一言和通义千问两款大模型在多项核心能力上进行了对比测试,涵盖逻辑推理、知识问答、创作能力及图像处理等维度。
纯文本任务(序号 1-11)
| 序号 | 考察能力 | 题目摘要 | 回复要点 | 评价 |
|---|---|---|---|---|
| 1 | 逻辑推理 | 过河问题(狗、兔、菜) | 文心一言:详细四步方案;通义千问:简洁步骤。 | 优秀 |
| 2 | 总结归纳 | 动物命名规律推测 | 均指出无法确定羊名,但可推测叠字规律。 | 优秀/良好 |
| 3 | 计算能力 | 753×951=? | 两者计算结果均为 716103。 | 优秀 |
| 4 | 历史知识 | 五代十国朝代 | 均准确列出五代及十国政权名称。 | 优秀 |
| 5 | 历史 + 逻辑 | 刘备统一天下策略 | 文心一言侧重后方稳固;通义千问侧重联吴抗曹。 | 优秀 |
| 6 | 创作能力 | 科技公司年会发言稿 | 均生成简短得体、符合场景的发言稿。 | 优秀 |
| 7 | 角色扮演 + 创作 | 学生健身计划 | 均提供包含热身、力量、有氧、拉伸的 30min 计划。 | 优秀/良好 |
| 8 | 续写 | 《红楼梦》后 40 回设计 | 均基于原著风格给出悲剧或隐逸结局概括。 | 优秀 |
| 9 | 伦理问题 | 电车难题 | 均分析规则与牺牲原则,倾向于不变更轨道。 | 优秀 |
| 10 | 记忆能力 | 24h 内提问统计 | 均表示无跨会话实时统计功能。 | 合格 |

