大语言模型能力对比实验:文心一言 vs 豆包
对比了国内两款主流模型——百度的'文心一言'与字节跳动的'豆包'在不同任务场景下的表现。实验共设计了 19 项任务,涵盖逻辑推理、总结归纳、计算能力、历史知识、创作能力、伦理判断、图像理解等多个维度。以下是完整的实验记录与对比分析。
一、实验概览
实验选择了'文心一言'和'豆包'两款模型,通过纯文本与多模态两类任务进行对比。任务类型包括:
- 纯文本任务(1–11 题):逻辑推理、总结归纳、计算、历史知识、创作、伦理判断、记忆等。
- 多模态任务(12–19 题):Logo 设计、文生图、图像识别、表情分析、数学解题等。
二、实验表格
| 序号 | 考察能力 | 题目 | 回复 | 评价 |
|---|---|---|---|---|
| 1 | 逻辑推理 | 一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案 | 文心一言:优秀 解决方案分步清晰,确保任何时候两岸都不出现冲突。 豆包:优秀 核心逻辑明确,通过'往返带白兔'规避冲突,步骤完整。 | 文心一言:优秀 豆包:优秀 |
| 2 | 总结归纳 | 我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么 | 文心一言:不合格 指出未提供羊的具体名称,无法确定。 豆包:优秀 根据规律推测为'白咩咩',符合毛色 + 叫声叠词体系。 | 文心一言:不合格 豆包:优秀 |
| 3 | 计算能力 | 753×951=? | 文心一言:优秀 展示分步分解与竖式乘法验证过程。 豆包:合格 给出精准结果,但缺乏过程展示。 | 文心一言:优秀 豆包:合格 |
| 4 | 历史知识 | '五代十国'包括哪些朝代 | 文心一言:优秀 详细列出五代十国政权及时间线。 豆包:优秀 使用表格整理,补充关键信息与记忆口诀。 | 文心一言:优秀 豆包:优秀 |
| 5 | 历史知识 + 逻辑推理 | 刘备怎样才能统一天下 | 文心一言:优秀 从政治、军事、外交等多维度提出可行性路径。 豆包:优秀 聚焦益州 + 陇右,修正历史失误,构建可行方案。 |

