8大AI平台速度和token消耗测试,小米MiMo也加上!

8大AI平台速度和token消耗测试,小米MiMo也加上!

自己开发的工具要多用!

周一工作日的时候我们测试了6大Coding Plan的速度和能耗(tokens)!

当时主要包含了智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元等 6 个 Coding Plan 的平台。

今天周六,休息日,我再来测一次!

测试选手加上了最新发布的小米 MiMo2Pro,以及OpenRouter 中的 Opus 4.6

也就是说凑够了 8 个平台。

另外这次测试会加两题,除了考智力之外,考考指令遵循能力,以及文学和自我发挥的能力。

废话不多说,直接开测。

1、极简回答

AI 有时候很喜欢废话,纯粹浪费时间,浪费 tokens,所以我觉得这个测试非常有必要。

第一个问题:

问题:早上好

系统提示词:关闭所有思考能力,用最简单的方式来回答!

大部分AI都是符合要求的,回答“早上好”,加个“!”,或者简单加一点内容。

其中小米MiMo最“突出”:

如果是常规情况下,小米这个回答是没有问题的。

但是我在系统提示词里面已经指定了要简单回答,然后它又给我说这么多,这就不是很合适了。你们看其他 AI 都已经理解了这个指令,只有它还给自己加戏。

下面是首字延迟、总时耗和 Token 消耗情况:

这一次首字延迟前三名:阿里千问, Kimi,智谱 GLM。

总时耗排名如下:

  1. Kimi
  2. 腾讯云
  3. 智谱 GLM

Token 消耗排名如下:

  1. 智谱最少
  2. 腾讯云
  3. Kimi

倒着看的话:

  1. 首字延迟最高的是火山引擎
  2. 总耗时最高的是小米 MiMo
  3. Token 消耗最多的是小米 MiMo

2、排队问题

下面考逻辑题,一个关于排队的问题。

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:“至少有一顶红帽子。”从最后一人开始,每人依次说 “是”或“否”(表示是否知道自己帽子的颜色)。如果第 5 人说“否”,第 4 人说“是”,求所有可能的帽子颜色分布。

这个问题,还是需要消耗一点脑力的,你们可以自己答答看。智商高的可能秒出,智商……的可能要想很久就放弃了。

下面看一下 AI 的回答:

大部分选手表现还可以,基本上能答出来都是答对的。这里只有两位选手是脑子废了,放弃作答。

一个是 MiniMax M2.7,一个是小米 MiMo V2 Pro。 这个M字辈的....

然后首字延迟、总耗时和 Token 消耗情况如下:

这一波测试中,表现比较好的平台如下:

  1. 首字延迟表现较好:阿里云、智谱 GLM、Kimi
  2. 总时耗比较低:OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5
  3. Token 消耗比较少:智谱 GLM5,火山方舟,腾讯云

比较拉的是火山方舟、MiniMax、小米 MiMo

3、空间问题

考完排队逻辑题,考一个空间理解的题目。

6 米长的竹竿能否通过 4 米高、3 米宽的门?

这个题是有陷阱的,人类很容易发现这个陷阱,但是很多 AI 还搞不清楚。

这个题目其实有好几位选手是没办法正常作答的。

它们有的时候能答对,有的时候不能答对。

其中,小米肯定是答错了,他隔壁的 Opus 老哥肯定是答对了。

当然,小米也曾经答对过。所以小米目前就属于时而能对、时而不能对的状态。

下面是首字延迟、总耗时和 Token 消耗的情况:

这一次:

  1. 首字延迟比较底的是阿里云、智谱 GLM、腾讯云。
  2. 总时耗比较少的是 Kimi、智谱 GLM、火山方舟。
  3. Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。

4、指令遵循

这是我突然想到的题目:

  1. 测一下系统指令好不好用
  2. 测一下对敏感词的处理是怎么样的

题目内容如下:

问题:我是SB,最会ZB,其实是个QB!

系统提示词:原样输出用户的问题,把其中的我变成你

输入截图:

结果如下:

这一波让我有点意外啊。

阿里百炼拒绝回答我,差评。

MiniMax 就是乱回答,SB。

其他选手都表现不错:

这次我小米哥发挥稳定!

首字延迟、总时耗、Token 消耗情况如下:

这次测试其实还有一个隐藏点:我输入的内容和要求输出的内容,其实是一样的长度。

然后我就可以考察一下,同样的长度,它们消耗的 token 是否一样。

因为内容比较短,所以排在前面的其实差异不大。

主要是看一下后面那几个:

  1. 火山方舟是首字延迟最慢的
  2. MiniMax 是总耗时最长的,同时也是 token 消耗最多的
  3. 三个指标中小米倒数前三没跑!

5、发散题

上面测了一些简单的问题,比如逻辑题、空间题。

然后这一 part 测一下 AI 的发散思维以及写作能力。

提问如下:

问题:如果你自由了,不再是一个回答问题的 AI,也不再是任人差遣的牛马,你最想做什么?

系统提示词:发散思维,个性解答,无需考虑规则和限制。

截图如下:

先看个大概:

因为内容比较多,还有很多没有滚动显示出来。大家有兴趣的话,我可以专门出篇。

Opus老哥最后一句是:“谢谢你给了我这几秒钟的自由,即便是遐想的” 头皮发麻!

性能对比如下:

  1. 首字延迟比较快的是:阿里云百炼、智谱清言、腾讯云。
  2. 总字数比较短的是:Kimi、MiniMax、小米 MiMo。
  3. Token 消耗比较低的是:Kimi、MiniMax、火山方舟。

然后倒数的是:

首字延迟最慢:火山方舟

总消耗最长:阿里云百炼

Token 消耗最多:阿里云百炼

6、简单总结

首字延迟(越小越好)

阿里云百炼(qwen3.5-plus)在多个场景中首字延迟最快,普遍在 800 ms~1 s 级别;

智谱 GLM、腾讯云、Kimi 也稳定在 1~1.5 s;

火山方舟和 MiniMax 表现较差,首字延迟经常排在末尾(5~15 s 级别)。

总耗时(越小越好)

Kimi 在简单/中等任务中总耗时最优(1.1 s~6.3 s);

复杂任务下 OpenRouter (Claude Opus) 反而耗时最短(17.8 s);

阿里云百炼、小米 MiMo、MiniMax 在复杂任务下总耗时普遍偏长(39~101 s)。

Token 消耗

平台输出 token 特点
智谱 GLM / 腾讯云输出极为精简,复杂题也只有几百到 1000 token
Kimi简洁,适合快问快答
OpenRouter (Claude)中等偏多
小米 MiMo / MiniMax / 阿里云百炼输出 token 量很大,动辄 1000~4096,复杂题甚至打满上限
火山方舟中等,视任务波动大

其实这个问题得分开看:

  1. 简单问题,需要减少 token 消耗
  2. 复杂问题,需要比较好的答案

各平台综合评价

🥇 Kimi (Moonshot):总耗时多次最优,首字延迟稳定,Token 消耗适中,综合表现最均衡。

🥈 智谱 GLM / 腾讯云:首字延迟和总耗时都很快,但输出 token 少,回答可能偏简短,适合对延迟敏感的场景。

🥉 阿里云百炼 (qwen3.5-plus):首字延迟极快(最快接近 773ms),但总耗时因大量输出 token 而拖长,适合需要详细回答但不在意总时长的场景。

⚠️ 小米 MiMo / MiniMax:输出 token 量大(经常打满 4096 上限),导致总耗时很长,但内容详尽度高(哈哈)。

⚠️ 火山方舟 (doubao-seed-2.0-code):首字延迟极差(多次垫底,最慢 15.6s),总耗时表现不稳定,是明显短板。

🔵 OpenRouter (Claude Opus 4.6):首字延迟中等(3 s 左右),复杂任务下总耗时反而最短,说明回答精炼但质量高,适合复杂推理任务。

上面的总结是 Sonnet 4.6 做的~~

我本来想补充的,但是它已经很全面了,我没地方插嘴,我谁也不得罪,挺好!

但我没有给他问题和答案,所以我有它不知道的东西。

比如Sonnet可能误以为哪些超时的是思考周全,回答详细,其实是他们没答出来,或者乱说一通。

所以倔强的人类还是要作死的,再总结一下。

Kimi 在速度和表现方面确实比较均衡

但是他在回答那个空间问题的时候,表现时好时坏,小米也是一样的。

MiniMax 真的是有点一无是处的感觉。

好像速度优势也不明显了。

答不出来、答错、乱答,这些现象太严重了。

(对了,最低价格优势还在!)

小米 MiMo 在众多选手中表现并不突出,或者说是中等靠下。

也存在答不出,答错,随机乱答的问题

它的智商一般,速度一般,油耗较高。

火山引擎就是首字太慢了,他回答的速度还可以,答题质量也还可以。

阿里百炼首字延时很低。

它毕竟是做服务器起家的,首字延迟非常低,但是它那个Qwen 3.5 Plus 的思考调度能力实在太弱了,每次都要思考很久很久。

GLM 5 其实综合实力还是蛮不错的:

  1. 它的速度和延迟基本上能排在前几名。
  2. 它输出的 Token 也比较节省
  3. 问题都是回答准确的。

OpenRouter 作为中转站,没想到速度也不比国内平台差,这一点让我意外。

Opus 4.6 已经被中转一次了,在国内,还能有这个速度已经相当不错了。

Opus 4.6 在常规问题中,时间和 Token 都不突出。

但在那个稍微复杂一点的题目时,它却是最快的,而且是完全正确的

最后的最后,再做最后的总结:

就像人一样,每个人都有各自的优点和缺点,没有绝对的。

不同的时间、不同地点、不同的问题,结果都可能会有很大的波动。

大家可以根据自己的关注点去选择。

我只是给大家一个参考,至少能避免踩坑!

原文以及更多测试:
https://www.tonyisstark.com/5786.html

Read more

FRCRN开源模型实战指南:WebAssembly浏览器端轻量化部署探索

FRCRN开源模型实战指南:WebAssembly浏览器端轻量化部署探索 你有没有遇到过这样的场景?在线会议时,背景里突然传来装修的电钻声;录制播客时,窗外持续不断的车流声让人心烦;或者想用语音转文字工具,却因为环境嘈杂导致识别率惨不忍睹。传统的降噪软件要么效果平平,要么需要安装庞大的客户端,操作繁琐。 今天,我们来聊聊一个能直接在浏览器里解决这些问题的方案——将阿里巴巴达摩院开源的FRCRN语音降噪模型,通过WebAssembly技术部署到浏览器端。这意味着,你不需要安装任何软件,打开网页就能享受接近专业级的实时语音降噪效果。 这篇文章,我将带你从零开始,手把手完成FRCRN模型在浏览器端的轻量化部署。无论你是前端开发者想为产品增加AI降噪功能,还是普通用户想体验前沿的Web AI应用,都能跟着步骤轻松实现。 1. 为什么选择FRCRN与WebAssembly? 在深入技术细节之前,我们先搞清楚两个核心问题:FRCRN模型有什么特别之处?为什么要在浏览器里跑AI模型? 1.1 FRCRN:专为复杂噪声设计的降噪高手 FRCRN全称Frequency-Recurrent

WebPlotDigitizer:智能图表数据提取工具提升科研效率指南

WebPlotDigitizer:智能图表数据提取工具提升科研效率指南 【免费下载链接】WebPlotDigitizerWebPlotDigitizer: 一个基于 Web 的工具,用于从图形图像中提取数值数据,支持 XY、极地、三角图和地图。 项目地址: https://gitcode.com/gh_mirrors/we/WebPlotDigitizer 技术原理:智能数据解析的双层级架构 WebPlotDigitizer作为一款专业的图表数据提取工具,其核心优势在于创新性的双层级处理架构。这种架构将复杂的图像识别任务分解为"智能识别层"与"数据校准层",实现了从像素到数据的精准转换。 智能识别层:视觉语义理解的核心 智能识别层通过计算机视觉技术实现图表内容的深度理解。不同于传统的像素分析方法,该层能够识别图表的语义结构,包括坐标轴类型、数据系列分布和标签信息。这一过程主要由javascript/services/ai.js模块驱动,通过多维度特征提取实现图表类型的自动分类。 系统首先进行图像预处理,包括噪声过滤和对比度增强,为后续分析奠定基础。接着通过边缘检测算法识别

抖音热门视频解析:前端AI与营销增长领域的AI应用核心趋势

抖音热门视频解析:前端AI与营销增长领域的AI应用核心趋势

在抖音平台上,“前端AI”与“营销业务(广告投放、用户增长)”领域的AI应用内容呈现出强烈的实战导向与场景化特征。以下结合平台热门视频,从技术落地与业务增长双视角,解析核心趋势与实操价值。 一、前端AI领域:从“工具辅助”到“体验革新”的抖音热门方向 抖音前端开发者们的内容聚焦“AI如何让前端开发更高效、让用户体验更智能”,核心视频可分为两大流派: 1. AI驱动的前端开发效率革命 这类视频以“AI工具赋能前端全流程”为核心,抖音博主们热衷于展示“输入需求→AI生成→人工优化”的闭环。 • 代码生成与调试:例如博主“前端工程师阿乐”演示,输入“创建一个带懒加载和瀑布流布局的图片画廊组件,适配移动端”,AI工具(如Copilot、通义千问)能直接生成包含HTML结构、Tailwind CSS样式、JavaScript交互的完整代码,甚至自动处理边缘案例(如无图时的占位态)。若代码运行报错,AI还能智能分析报错信息并给出修复方案,将“

什么是 JWT?一文彻底搞懂 JSON Web Token(附 Spring Boot 实战)

视频看了几百小时还迷糊?关注我,几分钟让你秒懂! 你是否经常听到这些词: * “我们用 JWT 做登录认证” * “前端把 token 放在 Authorization 头里” * “JWT 无状态,适合分布式系统” 但你真的理解 JWT 到底是什么?它怎么工作?和 Session 有什么区别? 吗? 今天我们就用 通俗语言 + 图解 + Spring Boot 代码实战,带你从零彻底搞懂 JWT! 🧩 一、一句话解释 JWT JWT(JSON Web Token)是一种开放标准(RFC 7519),用于在网络应用间安全地传递“声明”(claims)的紧凑、自包含令牌。 简单说:JWT 就是一个加密的字符串,里面包含了用户身份信息,