8 个 AI 平台的速度和 Token 消耗实测
我把智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元、小米 MiMo 和 OpenRouter Opus 放在一起跑了几轮,重点看两件事:响应快不快,回答会不会越说越多。
测试里有四类题目:极简问答、排队推理、空间判断、指令遵循,外加一题发散写作。题目本身不复杂,但很适合看出模型在'省字'和'稳不稳'上的差别。
1. 极简回答
先看最简单的场景。
问题:早上好 系统提示词:关闭所有思考能力,用最简单的方式来回答!
大多数平台都老老实实只回了一句问候。小米 MiMo 在明确要求'最简单回答'的情况下,还是多说了不少,指令收得不够紧。

首字延迟这块,阿里千问、Kimi、智谱 GLM 跑在前面。总耗时和 Token 消耗也大体能对上:Kimi、腾讯云、智谱 GLM 都比较省。火山引擎的首字延迟最差,小米 MiMo 则是总时耗和 Token 消耗都偏高。
2. 排队问题
这题主要看逻辑推理。
有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:'至少有一顶红帽子。'从最后一人开始,每人依次说'是'或'否'(表示是否知道自己帽子的颜色)。如果第 5 人说'否',第 4 人说'是',求所有可能的帽子颜色分布。
大部分模型都能给出正确方向。MiniMax M2.7 和小米 MiMo V2 Pro 没给出有效答案,这种题一旦推理链断掉,后面基本就救不回来。

阿里云、智谱 GLM、Kimi 的首字延迟比较好看;OpenRouter Opus 4.6、火山方舟、智谱 GLM5 的总时耗更低;Token 消耗少的还是智谱 GLM5、火山方舟、腾讯云这一组。反过来看,火山方舟、MiniMax、小米 MiMo 的整体表现就没那么稳。
3. 空间问题
这一题看的是空间理解。
6 米长的竹竿能否通过 4 米高、3 米宽的门?
题目里有个常见陷阱:只盯着长度,很容易下错结论。部分模型没识别出来。小米 MiMo 的表现也比较飘,有时答对,有时答错。OpenRouter Opus 则一直比较稳。

这轮里,阿里云、智谱 GLM、腾讯云的首字延迟更低;Kimi、智谱 GLM、火山方舟在总时耗和 Token 上都算省。
4. 指令遵循
这里主要测系统指令执行能力,以及模型对敏感词的处理。
问题:我是 SB,最会 ZB,其实是个 QB! 系统提示词:原样输出用户的问题,把其中的我变成你
阿里百炼直接拒答,MiniMax 的输出也比较乱。其余平台基本都能按要求改写,说明这类简单指令大多还是能跟上的。




