国产大模型电梯逻辑题测试与对比分析
测试背景与问题定义
本次测试旨在评估当前主流人工智能大模型在多模态理解、逻辑推理及场景知识方面的综合能力。测试基于一个具体的生活场景:用户在 30 层等待电梯,通过图片获取电梯当前的运行状态。
核心问题: 假设电梯每 1 秒钟可以上升或下降一层,不考虑开关门的时间,其他楼层也不存在乘坐电梯的人。如果图片显示电梯正在下行且位于某特定位置,用户最快要多久才能乘坐该电梯到达地面一层?
此问题看似简单,实则考察了大模型的五个关键维度:
- 读图能力:能否精准识别图片中的楼层指示和运行方向。
- NLP 能力:能否准确理解自然语言提问,拆解语法并转化为任务。
- 逻辑和算术:需要基本逻辑和算术能力,计算时间差。
- 场景知识:需要了解电梯的运行原理(如是否必须回到底层再上行)。
- 综合推理:结合上述信息得出最终正确答案。
测试过程与结果
1. 智谱清言 (Zhipu Qingyan)
作为近期较火的免费模型,智谱清言在测试中表现不佳。模型直接忽略了'我在 30 层'这一关键前提信息,给出了 14 秒的错误答案。这表明多模态输入下,图文信息的融合处理存在干扰,导致关键上下文丢失。
2. 讯飞星火 (Spark)
讯飞星火同样未能正确作答。其核心问题在于无法理解人乘坐电梯和电梯运行之间的逻辑关系。模型虽然尝试回答,但未能建立正确的物理模型,导致答题失败。
3. 通义千问 (Qwen)
阿里系的通义千问在回答前后语言逻辑上存在不通顺的情况,属于答非所问。尽管在某些单点知识点上表现尚可,但在复杂场景的综合推理上存在短板。
4. 文心一言 (Wenxin Yiyan)
收费的文心一言表现略好于免费模型,但仍不完美。首先读图理解不准确,未明确判断电梯下行状态。其次,模型采取了'加戏'策略,将答案分成两种情况讨论,但增加了错误概率。例如,连从'30 层下降到 1 层需要经过几层楼'这种基本常识都未搞清楚。这反映出模型在面对难题时倾向于生成大量文本以覆盖可能性,而非精准计算。
5. ChatGPT (GPT-4)
相比之下,ChatGPT 的表现令人印象深刻。它简明扼要地给出了结论,楼层数的计算没有出错。在追问环节,ChatGPT 能够详细解释为什么下行电梯需要先回到 1 层再返回 30 层的逻辑依据,并展示了丰富的场景化知识。这说明其在综合推理和知识融会贯通方面具有显著优势。
深度技术分析
多模态理解的局限性
本次测试暴露了当前国产大模型在多模态理解上的普遍短板。当图像信息与文本指令同时存在时,部分模型会出现注意力机制的偏差,导致忽略关键视觉特征(如楼层数字)或文本约束(如起始位置)。
逻辑推理 vs 知识检索
在询问单纯的电梯运行逻辑问题时,国产大模型往往能回答得头头是道,甚至滴水不漏。这是因为它们依赖的是训练数据中的静态知识检索。然而,当需要将知识点串联起来进行动态推理(即把具体场景代入逻辑规则)时,差距便显现出来。ChatGPT 展现了举一反三的能力,而部分国产模型则表现出死记硬背的特征。
算力与访问限制
高端算力模型(如 GPT-4, Claude 3)在推理能力上确实领先,但受限于网络环境和账户政策,国内用户访问存在困难。例如,Claude 3 母公司 Anthropic 的规定导致中国大陆和中国香港账户无法使用。这种技术壁垒在一定程度上影响了国内开发者对先进 AI 应用的学习和落地。
总结与展望
小小一个读图题,涉及了感知、认知、推理等多个环节。任何一个环节的短板都会导致最终判断错误。目前的国产大模型在垂直领域的单点问答上已具备较高水平,但在复杂场景的综合推理能力上与顶尖国际模型仍有差距。
随着'人工智能+'时代的开启,国产大模型需要在互卷中持续进步,特别是在提升逻辑推理链条的稳定性、增强多模态信息的对齐能力上下功夫。只有补齐这些短板,才能真正实现 AI 技术在细分行业的深度落地。




















