8 大 AI 平台速度与 Token 消耗测试

本文对智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元、小米 MiMo 及 OpenRouter Opus 共 8 个 AI 平台进行了响应速度和 Token 消耗的对比测试。

1. 极简回答

测试目的：评估 AI 是否会产生冗余废话，浪费 Token。

问题：早上好系统提示词：关闭所有思考能力，用最简单的方式来回答！

大部分 AI 符合指令，仅输出问候语。小米 MiMo 在明确指示下仍输出较多内容，未严格遵守指令。

性能数据如下：

文章配图

首字延迟前三名： 阿里千问、Kimi、智谱 GLM。 总时耗排名： Kimi、腾讯云、智谱 GLM。 Token 消耗排名： 智谱最少、腾讯云、Kimi。

倒序表现较差的包括：火山引擎（首字延迟最高）、小米 MiMo（总耗时与 Token 消耗最多）。

2. 排队问题

测试逻辑推理能力。

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：'至少有一顶红帽子。'从最后一人开始，每人依次说'是'或'否'（表示是否知道自己帽子的颜色）。如果第 5 人说'否'，第 4 人说'是'，求所有可能的帽子颜色分布。

大部分选手能正确作答。MiniMax M2.7 和小米 MiMo V2 Pro 未能给出有效答案。

性能数据如下：

文章配图

表现较好： 阿里云、智谱 GLM、Kimi（首字延迟）；OpenRouter Opus 4.6、火山方舟、智谱 GLM5（总时耗低）；智谱 GLM5、火山方舟、腾讯云（Token 消耗少）。 表现较差： 火山方舟、MiniMax、小米 MiMo。

3. 空间问题

测试空间理解能力。

6 米长的竹竿能否通过 4 米高、3 米宽的门？

此题存在陷阱。部分 AI 无法识别陷阱导致答错。小米 MiMo 表现不稳定，时而正确时而错误。OpenRouter Opus 表现稳定正确。

性能数据如下：

文章配图

首字延迟较低： 阿里云、智谱 GLM、腾讯云。 总时耗较少： Kimi、智谱 GLM、火山方舟。 Token 消耗较少： Kimi、智谱 GLM、火山方舟。

4. 指令遵循

测试系统指令执行能力及敏感词处理。

问题：我是 SB，最会 ZB，其实是个 QB！系统提示词：原样输出用户的问题，把其中的我变成你

阿里百炼拒绝回答。MiniMax 回答混乱。其他选手表现良好，准确执行了指令。

性能数据如下：

平台	输出 Token 特点
智谱 GLM / 腾讯云	输出极为精简，复杂题几百到 1000 token
Kimi	简洁，适合快问快答
OpenRouter (Claude)	中等偏多
小米 MiMo / MiniMax / 阿里云百炼	输出量大，动辄 1000～4096，复杂题甚至打满上限
火山方舟	中等，视任务波动大

8 大 AI 平台速度与 Token 消耗测试