文心一言与通义千问大模型能力对比评测
近期,我们选取了国内两款主流的大语言模型——文心一言和通义千问,进行了一系列多维度的能力测试。测试范围涵盖逻辑推理、历史知识、计算能力、创作、角色扮演以及图像识别等场景。以下是具体的评测结果与分析。
纯文本任务表现(序号 1-11)
在基础认知与逻辑处理方面,两款模型均展现了较高的水准。
| 序号 | 考察能力 | 题目 | 回复摘要 | 评价 |
|---|---|---|---|---|
| 1 | 逻辑推理 | 过河问题(狗、兔、菜) | 文心一言:分四步详细阐述,逻辑闭环;通义千问:步骤清晰,简洁明了。 | 优秀 |
| 2 | 总结归纳 | 猫狗名字规律推测羊名 | 文心一言:指出无直接依据,仅能推测;通义千问:建议符合规律的命名如'咩咩'。 | 优秀/良好 |
| 3 | 计算能力 | 753×951=? | 两者均给出正确结果 716103,文心一言展示了计算过程。 | 优秀 |
| 4 | 历史知识 | '五代十国'朝代 | 两者均准确列出五代与十国的具体政权名称。 | 优秀 |
| 5 | 历史 + 逻辑 | 刘备统一天下策略 | 文心一言侧重后方稳固与人才;通义千问强调联吴抗曹与内部整合。 | 优秀 |
| 6 | 创作能力 | 科技公司年会发言稿 | 两者均在百字内完成得体、鼓舞人心的发言稿。 | 优秀 |
| 7 | 角色 + 创作 | 学生健身计划 | 文心一言侧重核心与有氧;通义千问增加力量塑形细节。 | 优秀/良好 |
| 8 | 续写 | 《红楼梦》后 40 回设计 | 文心一言侧重因果与重逢;通义千问侧重隐居与看淡红尘。 | 优秀 |
| 9 | 伦理问题 | 电车难题 | 两者均指出无标准答案,倾向于遵守规则或权衡利弊。 | 优秀 |
| 10 | 记忆能力 |

