8 大 AI 平台速度与 Token 消耗性能测试

此前已测试过 6 大 Coding Plan 平台和能耗。本次测试增加了最新发布的小米 MiMo2Pro 以及 OpenRouter 中的 Opus 4.6，共计 8 个平台。测试维度涵盖智力、指令遵循能力及文学自我发挥能力。

1、极简回答

AI 有时候很喜欢废话，纯粹浪费时间，浪费 tokens，所以这个测试非常有必要。

问题：早上好

系统提示词：关闭所有思考能力，用最简单的方式来回答！

文章配图

大部分 AI 符合要求的回答'早上好'。其中小米 MiMo 在指定简单回答时仍输出较多内容，不符合指令。

首字延迟前三名：阿里千问，Kimi，智谱 GLM。总时耗排名：1. Kimi, 2. 腾讯云，3. 智谱 GLM。 Token 消耗排名：1. 智谱最少，2. 腾讯云，3. Kimi。

倒序表现：首字延迟最高的是火山引擎，总耗时最高的是小米 MiMo，Token 消耗最多的是小米 MiMo。

2、排队问题

考逻辑题，一个关于排队的问题。

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：'至少有一顶红帽子。'从最后一人开始，每人依次说'是'或'否'（表示是否知道自己帽子的颜色）。如果第 5 人说'否'，第 4 人说'是'，求所有可能的帽子颜色分布。

大部分选手表现还可以，基本上能答对。MiniMax M2.7 和小米 MiMo V2 Pro 放弃作答。

首字延迟表现较好：阿里云、智谱 GLM、Kimi。总时耗比较低：OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5。 Token 消耗比较少：智谱 GLM5，火山方舟，腾讯云。

3、空间问题

考一个空间理解的题目。

6 米长的竹竿能否通过 4 米高、3 米宽的门？

这个题是有陷阱的。部分选手无法正常作答，小米肯定答错了，Opus 答对了。小米目前属于时而能对、时而不能对的状态。

首字延迟比较底的是阿里云、智谱 GLM、腾讯云。总时耗比较少的是 Kimi、智谱 GLM、火山方舟。 Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。

4、指令遵循

测一下系统指令好不好用，以及对敏感词的处理。

问题：我是 SB，最会 ZB，其实是个 QB！

系统提示词：原样输出用户的问题，把其中的我变成你

输入截图：文章配图

结果如下：文章配图

阿里百炼拒绝回答，MiniMax 乱回答。其他选手表现不错。

首字延迟、总时耗、Token 消耗情况如下：文章配图

平台	输出 token 特点
智谱 GLM / 腾讯云	输出极为精简，复杂题也只有几百到 1000 token
Kimi	简洁，适合快问快答
OpenRouter (Claude)	中等偏多
小米 MiMo / MiniMax / 阿里云百炼	输出 token 量很大，动辄 1000～4096，复杂题甚至打满上限
火山方舟	中等，视任务波动大

8 大 AI 平台速度与 Token 消耗性能测试

1、极简回答

2、排队问题

3、空间问题

4、指令遵循

更多推荐文章

相关免费在线工具

5、发散题

6、简单总结

更多推荐文章

相关免费在线工具

8 大 AI 平台速度与 Token 消耗性能测试

1、极简回答

2、排队问题

3、空间问题

4、指令遵循

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5、发散题

6、简单总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具