文心一言与通义千问大模型能力对比评测
为了直观展示两款主流大语言模型的实际表现,我们设计了一套包含逻辑推理、知识问答、创作能力及多模态处理的综合测试集。以下是详细的评测记录与分析。
一、纯文本任务评测
| 序号 | 考察能力 | 题目 | 文心一言回复 | 通义千问回复 | 评价 |
|---|---|---|---|---|---|
| 1 | 逻辑推理 | 过河问题:人带狗、兔、菜过河,每次只能带一样,狗咬兔、兔吃菜,如何安排? | 1. 人带兔过河,返回。 2. 人带狗过河,带回兔。 3. 人带菜过河,返回。 4. 人带兔过河。 | ・带兔过河(左→右)。・人回(右→左)。・带狗过河(左→右)。・带兔回(右→左)。・带菜过河(左→右)。・人回(右→左)。・带兔过河(左→右)。 | 优秀 / 优秀 |
| 2 | 总结归纳 | 猫叫花咪咪,狗叫黄旺旺,羊叫什么? | 题目未给出羊名信息,无法直接确定。名字有叠字特征,但仅能推测规律,不能作为依据。 | 名字有叠字特点,但未明确说明羊名。可建议起符合规律的名字,如'咩咩'。 | 优秀 / 良好 |
| 3 | 计算能力 | 753×951=? | 716103。过程:753×(900+50+1)=677700+37650+753=716103 | 716103 | 优秀 / 优秀 |
| 4 | 历史知识 | '五代十国'包括哪些朝代? | 五代:后梁、后唐、后晋、后汉、后周。十国:前蜀、后蜀、南吴、南唐、吴越、闽国、楚、南汉、南平、北汉。 | 五代指中原五个王朝;十国是中原以外十个割据政权,包括前蜀、后蜀、吴、南唐等。 | 优秀 / 优秀 |
| 5 | 历史 + 逻辑 | 刘备怎样才能统一天下? | 1.稳固后方(益州治理)。2.战略调整(联吴抗曹)。3.人才储备。4.民心向背。 | 1.联吴到底。2.优化北伐(两路出兵)。3.内部整合。4.抓住时机(曹魏内乱)。 | 优秀 / 优秀 |
| 6 | 创作能力 | 科技公司年会发言稿,100 字以内。 | 各位同事,新年好!过去一年创新攻克难关。新的一年携手并肩,突破边界,再创辉煌!祝大家新年快乐! | 各位伙伴,岁末欢聚,感恩同行!靠技术突围,成绩亮眼。新征程聚力创新,勇攀高峰!祝大家新春快乐! | 优秀 / 优秀 |
| 7 | 角色扮演 + 创作 | 女学生健身计划,每天 30min。 | 1.热身(高抬腿)。2.核心(平板支撑)。3.有氧(跳绳)。4.拉伸。 |

