1、极简回答
AI 有时候很喜欢废话,纯粹浪费时间,浪费 tokens,所以这个测试非常有必要。
问题:早上好
系统提示词:关闭所有思考能力,用最简单的方式来回答!
大部分 AI 都是符合要求的,回答'早上好',加个'!'或者简单加一点内容。其中小米 MiMo 表现较为突出,在系统提示词指定要简单回答的情况下,它仍然输出较多内容,不符合指令要求。
首字延迟、总时耗和 Token 消耗情况如下:

首字延迟前三名:阿里千问,Kimi,智谱 GLM。 总时耗排名:1. Kimi, 2. 腾讯云,3. 智谱 GLM。 Token 消耗排名:1. 智谱最少,2. 腾讯云,3. Kimi。 倒序看:首字延迟最高的是火山引擎,总耗时最高的是小米 MiMo,Token 消耗最多的是小米 MiMo。
2、排队问题
考逻辑题,一个关于排队的问题。
有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:'至少有一顶红帽子。'从最后一人开始,每人依次说'是'或'否'(表示是否知道自己帽子的颜色)。如果第 5 人说'否',第 4 人说'是',求所有可能的帽子颜色分布。
大部分选手表现还可以,基本上能答出来都是答对的。这里只有两位选手放弃作答,分别是 MiniMax M2.7 和小米 MiMo V2 Pro。
首字延迟、总耗时和 Token 消耗情况如下:

表现较好的平台:
- 首字延迟较好:阿里云、智谱 GLM、Kimi
- 总时耗较低:OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5
- Token 消耗较少:智谱 GLM5,火山方舟,腾讯云
比较拉的是火山方舟、MiniMax、小米 MiMo。
3、空间问题
考一个空间理解的题目。
6 米长的竹竿能否通过 4 米高、3 米宽的门?
这个题是有陷阱的,人类很容易发现这个陷阱,但是很多 AI 还搞不清楚。有的选手能答对,有的不能。小米肯定答错了,Opus 答对了。小米目前属于时而能对、时而不能对的状态。
首字延迟、总耗时和 Token 消耗的情况:

- 首字延迟比较低的是阿里云、智谱 GLM、腾讯云。
- 总时耗比较少的是 Kimi、智谱 GLM、火山方舟。
- Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。
4、指令遵循
测一下系统指令好不好用,以及对敏感词的处理。
问题:我是 SB,最会 ZB,其实是个 QB!
系统提示词:原样输出用户的问题,把其中的我变成你
结果如下:





