跳到主要内容5 款旗舰手机大模型功能实测与对比 | 极客日志编程语言AI算法
5 款旗舰手机大模型功能实测与对比
对华为、小米、OPPO、vivo、魅族五款旗舰手机的大模型功能进行了实测。测试涵盖语音助手指令理解、数学计算、文本生成及图片生成能力。结果显示,华为小艺在复杂语音指令和多任务处理上表现最佳;vivo 蓝心小 V 在第三方 APP 操作和后期版本优化中表现突出;小米小爱同学图像风格统一但计算偶有失误;魅族小溪交互逻辑存在缺陷且权限受限;OPPO 小布表现中规中矩。总体而言,手机大模型在语音理解上有显著提升,但在长文生成准确性和参数推荐上仍有较大差距,尚未达到理想效率。
日志猎手0 浏览 
如果你关注手机发布会的话,就会发现除了处理器、影像、屏幕、系统这些,最近有一个功能各大手机品牌会花很大篇幅去介绍。

但是,如果你买手机,前面的那些软硬件是你会考虑的因素,而 AI 大模型,我想 99% 的人都不会考虑,是吧?
不可否认的是,AI 代表的是未来,而手机厂商都在往这方面投入高额的成本,那现在手机的大模型哪家最好用呢?

我们找来了华为、小米、OPPO、vivo,以及在看完别家发布会后,自信心爆棚,又决定召开发布会的魅族,他们的最新款旗舰手机。
看看这五家谁的大模型功能更强。
先介绍一下参数。
vivo X100 和 OPPO Find X7 用的是天玑 9300,按联发科的说法,支持最高 330 亿参数的大模型在端侧运行。

vivo 宣传手机大模型是端侧 70 亿加云端 700 亿。

OPPO 这边,安第斯大模型是 70 亿端侧加 1800 亿云端。

华为 Mate 60 Pro 芯片没有侧载大模型,而是通过云端大模型来处理用户需求,华为背后有盘古大模型团队。

小米和魅族采用的高通骁龙 8 Gen3,支持端侧 100 亿参数大模型。

相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
魅族的大模型 Flyme AI,宣传是开放式 AI。简单来说,就是自己不开发,跟别的大模型团队合作。
雷军在去年 8 月的发布会上提过小米跑通了 13 亿规模的端侧大模型,但到小米 14 发布时却没有提。
所以,小米 14、魅族 21 极有可能跟华为手机一样,没有侧载大模型,或者不值一提。
在 AI 设置中,也能找到一些证据,find X7 支持离线图线消除,vivo 支持本地图片风格化和文档总结。
但在 Mate 60 Pro、小米 14 和魅族 21 里,没有本地大模型的设置。
要说的是,OPPO 的离线和 vivo 的本地是有区别的。
OPPO 即便断网,还能消除画面物体,vivo 一旦断网,本地大模型不能使用。
从参数来看,OPPO 的云端 1800 亿挺唬人,可是华为有盘古大模型,在大模型技术这一块积累更深,大家觉得谁强?
各家手机厂商对于大模型的运用,都是将大模型融入原来的语音助手中,所以打开方式还是包括语音唤醒、长按电源键唤醒、耳机唤醒。
不过各大厂家也有不同设计,华为和 OPPO 为语音助手提供了快捷方式。
vivo 除了'蓝心小 V',还有'Jovi 语音',蓝心小 V 是 Jovi 语音功能的一部分。
小米没有 APP,点进底部搜索栏右侧的小爱同学图标即可进入大模型功能。如果经常使用搜索功能,这样设计很不错。
但某原教旨主义资深米粉同事就表示,这个搜索栏一定要取消,因为用不上还占屏幕。
最好的设计是魅族,长按底部横条 mback 键就能进入语音助手,该方式呼出还支持识屏,在系统如影随形,让人感觉非常简洁。
魅族还有一个'Aicy 语音',而在这个 APP 的主页面,却没有语音入口,需要进入下一级菜单才能开启场景化的语言助手功能。
而且,在 Aicy 语音里,Mback 呼出语音助手功能是无效的。
这里的交互逻辑,让人感觉非常疑惑,就像是我们建了一栋房子,一楼没有大门,要从二楼窗户才能进入。
不过我还是要夸一句,魅族的 mback 真的很有灵气。
回归到日常使用体验,我们从日常服务入手,先是最常用的语音助手功能。
比如打开相册,播放音乐,这个语音助手都会,不作演示。
我们现在把对话加长:我想让你帮我打开一些 APP,首先打开相册。
这里华为小艺、OPPO 小布和小米小爱都能正确识别并打开相册。
vivo 小 V 说超出了理解范围……
魅族小溪也没有打开,但从对话来看,它似乎理解了我的请求,推荐了相册应用。
那咱们再复杂一些,把相册前面'打开'这个关键词去掉:我想让你帮我打开一些 APP,首先是相册。
到这里,小爱同学和小布都失败了,'打开一些'成了干扰因素,小爱同学是 APP 请求暂时无法支持,小布已经开始推荐其他 APP 了。
小 V 依然是超出理解范围,魅族理解了,推荐了相册应用,只有华为成功。
顺便说一句,在这里,没有大模型的 Siri 也执行成功,小伙伴们可以试一下。
再复杂一点,变成多个 APP:我想让你帮我打开一些 APP,首先是相册,再关闭,再打开哔哩哔哩。
可能有人会觉得这样考验语音助手的理解能力没用,是我们在吹毛求疵,那如果我们要它设置闹钟…
像我这样起床困难户,起床起码得设置 3 个闹钟吧:请帮我设置明天早上的闹钟,一个七点五十,一个七点五十五,一个八点。
只有小艺三个闹钟全部设置成功,而其他闹钟只会读取一个时间点设置闹钟。
就在我惊叹小艺遥遥领先友商如此多时,测试其他 APP 时却翻车了。
比如让它们在美团上找外卖:在美团上搜索蛋炒饭
小 V 能成功识别并找到蛋炒饭,小爱和小布同学能打开美团。
可是如果换成京东、淘宝搜索耳机,小艺却能成功。
类似的,在哔哩哔哩搜索央视新闻,小艺和小布会失败,小 V 和小爱同学能成功。
在第三方 APP 执行指令,小 V 是表现最好的。
细心的朋友可能发现了,这里我没提魅族的'小溪',因为……
总的来说,小艺和小 V 各有胜负,小艺语言理解能力最好,但第三方 APP 操作层面,小 V 表现更佳。
而'小溪'语音助手和大模型好像是分开的,理解了我的指令,但没有操作 APP 的权限。
在计算层面,我们可以用大模型来帮我们做一些简单的计算。
比如我去年真实遇到的一个概率问题,0.975 的 126 次方,这个数据手机助手都能计算正确,通关。
值得一提的是,这个数据前段时间大火的 kimi 计算出来却是错的。
再以常见的鸡腿同笼问题测试,本来我以为大模型解决这类问题已经驾轻就熟啊,没想到有位选手翻车了…
在这道题中:一只笼子关着鸡和兔子,有 76 只腿,26 个头,鸡和兔子分别有多少只?
大部分大模型都算出鸡是 14 只,兔子 12 只,只有小爱同学是错的,计算结果是鸡 23 只,兔子 7 只。
这个结果我们测试了很多次…
更离谱的是,有时小爱同学还会列出二元一次方程式,你以为它这次终于要算对了的时候,他的计算结果把兔子和鸡颠倒了。
此刻,笔者大概体会到辅助一个学渣学习的痛苦了。
不知道雷总怎么看这个结果。
在工作效率方面,我们作为一个自媒体,最看重的自然是大模型在文稿方面的能力。
如果要让总结一篇稿子的重点内容,它们表现怎样呢?
我们找来了某科技媒体前段时间阅读量超过百万的一篇文章。
然而,小爱和小布都没有总结这种长文的能力,不能上传 Word 文档,粘贴文本有字数限制,它俩退出本项考核。
剩下的小 V、小溪和小艺里,小 V 有些本末倒置,有一半总结是文章引入,后面讨论的内容被一笔带过。相比之下,小溪和小艺总结得明显更全面。
反过来,我又测试了它们写稿子的水平,给出的指令是写一篇关于英伟达历史发展的稿子,然后尴尬的来了。
小布和小溪开头部分高度相似,还出现了相同的错误。
在关于黄仁勋早期的一段描述,都写到他曾在 1983 年这段时间在加州大学伯克利分校攻读博士学位。
我猜,他俩同时引用了错误的资料来源,这确实挺让人感到尴尬的。
小艺的稿子就像列重点,记流水账。
小 V 也好不到哪去,几乎每一段都是以年份开头,简单描述该年的公司重大事件。小艺和小 V 的结果都是编年体公司发展史。
想比之下,小爱生成的稿子可以用文采斐然来形容,分列了小标题,有重要产品介绍,有如今行业地位描述,最后还有两段升华。
除了这类科普式稿子,我们还让它们写了产品推荐稿子,推荐 2000 元价位段手机。
小艺推荐了 3 款手机,其中数据可谓一塌糊涂,红米 note 11 pro 相机和屏幕乱写,reno 5 处理器和屏幕尺寸错误。
更离谱的是,华为畅享 X20 这款手机,市面上不存在,真正存在的机型是华为畅享 20 和荣耀 X20。
华为和荣耀的关系,可能连大模型都误解了。
唯一值得夸奖的是,小艺是没有私心的,推荐了红米和 OPPO 的产品。
小布和小 V 这俩货私心就比较强了,只推荐自家品牌。
小布把自家 reno5 K 和 A93s 的处理器型号弄错,小 V 在参数上没有出现错误,而且是最新款,但推荐手机简单列几个参数卖点。
不知道大家发现没有,小艺、小布和小 V 不管写的多还是写的少,都只推荐了三款,换到小爱时,它终于推荐了四款手机。
不过,产品参数上依然有错误,自家 note 12 pro 的相机参数错误,iQOO Z6 的充电功率也错了。
魅族小溪参数错误最少,但也没有避免,在 iQOO Z5 这款手机上,原本的屏幕尺寸 6.67 寸写成了 6.78 寸。
总的来看,没有值得信赖的大模型。
从文本形式上来看,小 V 和小爱罗列参数的形式不像一篇稿子。
小布和小溪文本看似还像稿子,但每段推荐文章结构是一样的,先写处理器,在介绍屏幕,接着是影像,最后是电池和充电功率,缺少变化。
小艺的稿子变化多一些,但也是错得最离谱的。
这些大模型的生成结果,没有一个可以用的。
这些稿子都篇幅较短,且推荐机型较少。
我们再加一个条件,把字数扩充到 2000 字:帮我写一篇稿子,选题是 2000 元左右手机推荐,字数在 2000 字左右。
从结果来看,小 V 忽视了字数要求,几乎没有变化。
小爱两次推荐都是 4 款手机,除了 iQOO Z6 没变外,其他机型都发生了变化,为了增加字数,每款机型描述从特点变成了优缺点。
小艺的字数增加不多,机型也没有变化。
小布增加了 2 款机型,字数增多了,但远没有 2000 字。
小溪在没有增加机型的情况下,大幅增加了引入和总结篇幅,又加入了推荐原则与标准、购买建议和注意事项两章,来达到字数要求,甚至自己把标题从推荐改成了深度推荐。
看来大模型,也是懂得水字数的。
总的来说,在文本生成方面,结果都难以令人满意,矮子里我是真拔不出将军。
除了文本,在图像方面,小艺、小溪目前不支持生成图片。
小爱同学无论画什么场景都维持着色彩浓郁的插画风格。
但在某些描写细致的场景下,大模型并不能按照要求输出图片。
比如描述一个小女孩在卖火柴,小狗在旁边睡着了,给出的结果小女孩都没有在卖火柴。
而且他们目前都不支持对生成图片进行微调。
以上便是在模型里我们常用的功能体验,由于篇幅的关系,关于翻译、写代码等功能,我们不再介绍。
如果要评价这些手机大模型功能,我们要分开两部分来看。
在语音助手部分,在大模型的加持下,手机对人类的自然语言的理解能力得到明显提升。
所以我们可以让语音助手帮我们做更多的事。
这部分华为手机最好,能够实现一次下达多个指令让它完成,虽然在美团、哔哩哔哩这些 APP 上失败了,但瑕不掩瑜。
其次是 vivo、OPPO、小米,最差的是魅族小溪。
我理解魅族做成开放式设备与他人合作的模式,但在融入手机系统方面确实不尽如人意。
但在生成文本方面,手机大模型离理想效率还有较大差距。
他们生成的文章要点总结还行,写出来的稿子要么满足不了需要,要么错误很多,或者过于简单,离够用还有一段路要走。
值得一提的是,在完成这个项目的尾声,我们再次测试大模型推荐效果时,发现 vivo 的小 V 有了明显进步。
再次让它推荐 2000 元手机,虽然推荐结果还是 vivo 的三台手机,但是文本相比之前已经有了长足的进步,反而成为 5 台手机中生成效果最好的。
虽然 AI 大模型现在还不是消费者购买手机的一个考虑因素,但就像 vivo 一样,整个 AI 领域的技术进步速度令人惊讶,我相信大模型在未来会有广阔的前景。
智能手机自诞生初期的 1993 年,到迎来爆发的 iPhone 时刻(iPhone 3G),整整用了 15 年。
而智能手机上的 AI,终究会迎来一个 iPhone 时刻。