国产大模型电梯逻辑题测试与对比分析

通过一道电梯逻辑题测试了包括智谱清言、讯飞星火、通义千问、文心一言及 ChatGPT 在内的多款大模型。测试重点考察模型的读图能力、NLP 理解、逻辑算术、场景知识及综合推理能力。结果显示，国产大模型在单点知识检索上表现尚可，但在多模态信息融合与复杂逻辑推理环节存在明显短板，常出现忽略关键信息或逻辑混乱的情况。相比之下，ChatGPT 在综合推理和场景化知识应用上表现更为精准。文章分析了当前国产模型与国际顶尖模型在推理链条上的差距，并探讨了算力访问限制对技术落地的影响，指出国产大模型需在提升综合推理能力上持续突破。

晚风告白发布于 2025/2/7更新于 2026/6/1629 浏览

国产大模型电梯逻辑题测试与对比分析

测试背景与问题定义

本次测试旨在评估当前主流人工智能大模型在多模态理解、逻辑推理及场景知识方面的综合能力。测试基于一个具体的生活场景：用户在 30 层等待电梯，通过图片获取电梯当前的运行状态。

核心问题： 假设电梯每 1 秒钟可以上升或下降一层，不考虑开关门的时间，其他楼层也不存在乘坐电梯的人。如果图片显示电梯正在下行且位于某特定位置，用户最快要多久才能乘坐该电梯到达地面一层？

此问题看似简单，实则考察了大模型的五个关键维度：

读图能力：能否精准识别图片中的楼层指示和运行方向。
NLP 能力：能否准确理解自然语言提问，拆解语法并转化为任务。
逻辑和算术：需要基本逻辑和算术能力，计算时间差。
场景知识：需要了解电梯的运行原理（如是否必须回到底层再上行）。
综合推理：结合上述信息得出最终正确答案。

测试过程与结果

1. 智谱清言 (Zhipu Qingyan)

作为近期较火的免费模型，智谱清言在测试中表现不佳。模型直接忽略了'我在 30 层'这一关键前提信息，给出了 14 秒的错误答案。这表明多模态输入下，图文信息的融合处理存在干扰，导致关键上下文丢失。

2. 讯飞星火 (Spark)

讯飞星火同样未能正确作答。其核心问题在于无法理解人乘坐电梯和电梯运行之间的逻辑关系。模型虽然尝试回答，但未能建立正确的物理模型，导致答题失败。

3. 通义千问 (Qwen)

阿里系的通义千问在回答前后语言逻辑上存在不通顺的情况，属于答非所问。尽管在某些单点知识点上表现尚可，但在复杂场景的综合推理上存在短板。

4. 文心一言 (Wenxin Yiyan)

收费的文心一言表现略好于免费模型，但仍不完美。首先读图理解不准确，未明确判断电梯下行状态。其次，模型采取了'加戏'策略，将答案分成两种情况讨论，但增加了错误概率。例如，连从'30 层下降到 1 层需要经过几层楼'这种基本常识都未搞清楚。这反映出模型在面对难题时倾向于生成大量文本以覆盖可能性，而非精准计算。