前言
AI 正在渗透进生活,但中文用户常面临英文界面、高昂 API 费用及网络限制等问题。文心一言 4.5 正式开源,主打'能跑、好用、懂中文',为本地运行 AI 提供了新选择。
一:文心 4.5 各项能力测评
图像识别
使用文心一言识别虫子,相比百度视图和微信小程序识图,其答案更为准确健全。

开关门测试
模型不仅识别准确,还能注意到门上的透明胶带细节。

物体识别
反应速度快,识别结果无明显问题。

通识问答
针对物理、生物、化学、文学及城市空间结构等五道题目,文心一言给出了完整且准确的解答,尤其在中文语境下展现了独到见解。
1:选无穷远处为电势零点,半径为 R 的导体球带电后,其电势为 U₀,则球外离球心距离为 r 处的电场强度的大小为?
答案:E = U₀R / r²
2:用含 Oligo-dT 配基的纤维素柱层析提纯真核组织 mRNA 是非常有效的方法,是因为 mRNA 含有?
答案:poly(A)
3:分子中含碳碳双键,且每个双键碳上各自连有的基团不同就可产生?
答案:顺反异构结构
4:解释花间词派
答案:五代后蜀赵崇祚辑录了晚唐五代时温庭筠、皇甫松、韦庄等十八家词,编为《花间集》十卷...
5:在分析城市空间结构时,哪个因素对城市内部功能分区的形成起着决定性因素?
答案:经济
推理能力
包含概率计算、贝叶斯推断、几何优化及密码逻辑推理。普通模式下即可回答大部分问题,算术能力强,部分复杂逻辑题需深度思考。
1:假如目前这里现在一共有三只鸟...至少有两只鸟是母鸟的概率为多少?
答案:3/7
2:假设一种罕见疾病在人群中的发病率为 0.1%...他实际患病的概率大约是多少?
答案:4.7%
3:某处立交桥上...问经过多少时间两辆汽车之间距离为最小?并求他们之间的最小距离。
答案:6.25s,36.7m
4:某密码锁有三个数字位...推断出正确的三位数密码。
答案:698
二:文心一言 VS Claude VS DeepSeek VS Qwen3
由于 Gemini 不开源且限制中国地区使用,ChatGPT 存在付费门槛,本次对比主要聚焦于国内可用模型。
场景测试:胶带为什么在门上?
现实场景中 AI 难以理解非逻辑信息(如弟弟玩耍缠胶带),世界一流 AI 也难以猜出真实原因。
- Claude:表现接近文心一言。
- DeepSeek:能猜到暗示,但在'父母结婚'逻辑题上出现偏差。
- Qwen3:表现相对较差。
绕口令与常识测试
针对'陨石砸到陨石坑'、'斑马黑白底色'、'健胃消食片能否吃饱'等逻辑陷阱题进行评分(1~5 分)。
- :因要求简洁导致部分逻辑题答错。


