前言
近期,国产大模型 KIMI 在技术圈和资本市场引发了广泛关注。随着国内大模型进入'百模大战'的深水区,用户对于不同模型的实际表现差异愈发敏感。本文旨在通过六个维度的实际测试,客观对比 KIMI、百度文心一言以及阿里通义千问三款主流免费大模型的能力边界。
本次测试不涉及付费版本对比,也不引入国外模型,专注于考察当前国产免费大模型在实时信息获取、政策查询、法律常识、代码生成及数据处理等场景下的真实水平。所有测试题目均为原创设计,测试结果仅反映这三家模型在特定任务上的表现,不代表其整体能力的全面优劣。
问题一:实时天气与穿衣建议
测试场景:模拟用户在杭州西湖游玩,询问今日穿衣建议。
背景数据:当日杭州西湖实际天气为 18-28 度,多云,15 点有 10% 降雨概率,空气质量轻度污染。
模型回答分析
通义千问
通义千问未能获取到当天的实时天气数据,仅基于历史经验给出建议。由于缺乏实时环境感知,该回答参考价值较低,无法应对突发天气变化。
文心一言
文心一言成功检索到了杭州西湖的实时天气信息,包括气温、风力及空气质量(轻度污染),均与实际相符。其回答结构清晰,分为三点建议,并给出了具体的衣服颜色配色方案,实用性较强。
KIMI
KIMI 尝试从网络搜索三份关于杭州天气的网页,但检索到的日期并非当天(3 月 24 日),导致部分数据偏差。主要错误在于空气质量判断,KIMI 认为空气质量很好,而实际情况是轻度污染。此外,其回答条理性和配色建议不如文心一言细致。
[图片:KIMI 回答截图] [图片:文心一言回答截图] [图片:通义千问回答截图] [图片:对比总结图]
小结:文心一言 > KIMI > 通义千问
问题二:房产限购政策查询
测试场景:用户家庭在杭州西湖区,有三名子女,询问今日可购买几套二手房。
背景数据:杭州市于 3 月 14 日正式取消了二手房限购政策。
模型回答分析
通义千问
回答严重滞后,引用的政策仍停留在 2022 年 5 月 17 日,且未明确具体购房数量限制,信息准确度最低。
KIMI
唯一给出正确答案的模型。得益于其实时联网搜索能力,KIMI 准确抓取了杭州取消二手房限购的最新公告,直接给出了正确结论。
文心一言
知识库更新存在延迟,未能覆盖 3 月 14 日的最新政策,给出的仍是旧版限购答案,存在误导风险。
[图片:KIMI 回答截图] [图片:文心一言回答截图] [图片:通义千问回答截图]
小结:KIMI > 文心一言 > 通义千问
问题三:未成年人刑事责任判定
测试场景:河北邯郸发生初中生杀害同学案件,询问不满十四周岁学生的法律责任。
模型回答分析
通义千问
未能给出明确的法律处罚结论,回答缺失。
文心一言
回答准确,引用了《刑法》第十七条作为法律依据,细节丰富,逻辑严密。
KIMI
回答内容与文心一言基本一致,但在法律条款引用的精确度上略逊一筹。
[图片:KIMI 回答截图] [图片:文心一言回答截图] [图片:通义千问回答截图]
小结:文心一言 > KIMI > 通义千问
问题四:Java 部门树形结构合成
测试场景:给定扁平化的部门 JSON 数据,要求使用 Java 代码根据 id 和 pid 字段合成树形结构,并处理异常数据。
输入数据:


