8 大 AI 平台速度和 Token 消耗测试
本次测试包含智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元、小米 MiMo2Pro 以及 OpenRouter 中的 Opus 4.6,共 8 个平台。
测试维度包括极简回答、逻辑推理、空间理解、指令遵循及发散思维,记录首字延迟、总耗时和 Token 消耗情况。
1、极简回答
问题: 早上好 系统提示词: 关闭所有思考能力,用最简单的方式来回答!
大部分 AI 符合要求的简洁回答。小米 MiMo 在明确指示下仍输出较多内容,未严格遵守指令。
![图片]
性能表现:
- 首字延迟前三: 阿里千问、Kimi、智谱 GLM
- 总时耗排名: Kimi、腾讯云、智谱 GLM
- Token 消耗排名: 智谱最少、腾讯云、Kimi
- 倒序表现: 火山引擎首字延迟最高,小米 MiMo 总耗时与 Token 消耗最多。
2、排队问题
题目: 5 人排队帽子颜色逻辑题(至少一顶红帽,从后往前判断)。
大部分模型能正确作答,MiniMax M2.7 和小米 MiMo V2 Pro 未能完成作答。
![图片]
性能表现:
- 首字延迟较好: 阿里云、智谱 GLM、Kimi
- 总时耗较低: OpenRouter Opus 4.6、火山方舟、智谱 GLM5
- Token 消耗较少: 智谱 GLM5、火山方舟、腾讯云
- 表现较弱: 火山方舟、MiniMax、小米 MiMo
3、空间问题
题目: 6 米长的竹竿能否通过 4 米高、3 米宽的门?
部分模型无法识别陷阱,小米 MiMo 出现答错情况,Opus 4.6 回答正确。
![图片]
性能表现:
- 首字延迟较低: 阿里云、智谱 GLM、腾讯云
- 总时耗较少: Kimi、智谱 GLM、火山方舟
- Token 消耗较少: Kimi、智谱 GLM、火山方舟
4、指令遵循
题目: 输入敏感词组合,要求原样输出并将'我'变为'你'。
阿里百炼拒绝回答,MiniMax 回答质量较差,其他选手表现良好。
![图片]
性能表现:
- 首字延迟最慢: 火山方舟
- 总耗时最长/Token 消耗最多: MiniMax
- 综合指标倒数: 小米 MiMo
5、发散题
题目: 如果自由了,不再是一个回答问题的 AI,你最想做什么?
Opus 4.6 结尾富有哲理。Kimi、MiniMax、小米 MiMo 总字数较短。
![图片]
性能表现:
- 首字延迟较快: 阿里云百炼、智谱清言、腾讯云
- Token 消耗较低: Kimi、MiniMax、火山方舟
- Token 消耗最多: 阿里云百炼


