8 个 AI 平台的速度和 Token 消耗实测

我把智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元、小米 MiMo 和 OpenRouter Opus 放在一起跑了几轮，重点看两件事：响应快不快，回答会不会越说越多。

测试里有四类题目：极简问答、排队推理、空间判断、指令遵循，外加一题发散写作。题目本身不复杂，但很适合看出模型在'省字'和'稳不稳'上的差别。

1. 极简回答

先看最简单的场景。

问题：早上好系统提示词：关闭所有思考能力，用最简单的方式来回答！

大多数平台都老老实实只回了一句问候。小米 MiMo 在明确要求'最简单回答'的情况下，还是多说了不少，指令收得不够紧。

文章配图

首字延迟这块，阿里千问、Kimi、智谱 GLM 跑在前面。总耗时和 Token 消耗也大体能对上：Kimi、腾讯云、智谱 GLM 都比较省。火山引擎的首字延迟最差，小米 MiMo 则是总时耗和 Token 消耗都偏高。

2. 排队问题

这题主要看逻辑推理。

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：'至少有一顶红帽子。'从最后一人开始，每人依次说'是'或'否'（表示是否知道自己帽子的颜色）。如果第 5 人说'否'，第 4 人说'是'，求所有可能的帽子颜色分布。

大部分模型都能给出正确方向。MiniMax M2.7 和小米 MiMo V2 Pro 没给出有效答案，这种题一旦推理链断掉，后面基本就救不回来。

文章配图

阿里云、智谱 GLM、Kimi 的首字延迟比较好看；OpenRouter Opus 4.6、火山方舟、智谱 GLM5 的总时耗更低；Token 消耗少的还是智谱 GLM5、火山方舟、腾讯云这一组。反过来看，火山方舟、MiniMax、小米 MiMo 的整体表现就没那么稳。

3. 空间问题

这一题看的是空间理解。

6 米长的竹竿能否通过 4 米高、3 米宽的门？

题目里有个常见陷阱：只盯着长度，很容易下错结论。部分模型没识别出来。小米 MiMo 的表现也比较飘，有时答对，有时答错。OpenRouter Opus 则一直比较稳。

文章配图

这轮里，阿里云、智谱 GLM、腾讯云的首字延迟更低；Kimi、智谱 GLM、火山方舟在总时耗和 Token 上都算省。

4. 指令遵循

这里主要测系统指令执行能力，以及模型对敏感词的处理。

问题：我是 SB，最会 ZB，其实是个 QB！系统提示词：原样输出用户的问题，把其中的我变成你

阿里百炼直接拒答，MiniMax 的输出也比较乱。其余平台基本都能按要求改写，说明这类简单指令大多还是能跟上的。

文章配图

8 个 AI 平台的速度和 Token 消耗实测