8 大 AI 平台速度与 Token 消耗测试
本文对智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元、小米 MiMo 及 OpenRouter Opus 共 8 个 AI 平台进行了响应速度和 Token 消耗的对比测试。
1. 极简回答
测试目的:评估 AI 是否会产生冗余废话,浪费 Token。
问题:早上好 系统提示词:关闭所有思考能力,用最简单的方式来回答!
大部分 AI 符合指令,仅输出问候语。小米 MiMo 在明确指示下仍输出较多内容,未严格遵守指令。
性能数据如下:

首字延迟前三名: 阿里千问、Kimi、智谱 GLM。 总时耗排名: Kimi、腾讯云、智谱 GLM。 Token 消耗排名: 智谱最少、腾讯云、Kimi。
倒序表现较差的包括:火山引擎(首字延迟最高)、小米 MiMo(总耗时与 Token 消耗最多)。
2. 排队问题
测试逻辑推理能力。
有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:'至少有一顶红帽子。'从最后一人开始,每人依次说'是'或'否'(表示是否知道自己帽子的颜色)。如果第 5 人说'否',第 4 人说'是',求所有可能的帽子颜色分布。
大部分选手能正确作答。MiniMax M2.7 和小米 MiMo V2 Pro 未能给出有效答案。
性能数据如下:

表现较好: 阿里云、智谱 GLM、Kimi(首字延迟);OpenRouter Opus 4.6、火山方舟、智谱 GLM5(总时耗低);智谱 GLM5、火山方舟、腾讯云(Token 消耗少)。 表现较差: 火山方舟、MiniMax、小米 MiMo。
3. 空间问题
测试空间理解能力。
6 米长的竹竿能否通过 4 米高、3 米宽的门?
此题存在陷阱。部分 AI 无法识别陷阱导致答错。小米 MiMo 表现不稳定,时而正确时而错误。OpenRouter Opus 表现稳定正确。
性能数据如下:

首字延迟较低: 阿里云、智谱 GLM、腾讯云。 总时耗较少: Kimi、智谱 GLM、火山方舟。 Token 消耗较少: Kimi、智谱 GLM、火山方舟。
4. 指令遵循
测试系统指令执行能力及敏感词处理。
问题:我是 SB,最会 ZB,其实是个 QB! 系统提示词:原样输出用户的问题,把其中的我变成你
阿里百炼拒绝回答。MiniMax 回答混乱。其他选手表现良好,准确执行了指令。
性能数据如下:




