跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

实测 6 款国产大模型实用性：长文本与多模态能力横向对比 | 极客日志

编程语言AI算法

实测 6 款国产大模型实用性：长文本与多模态能力横向对比

实测 Kimi、文心一言、通义千问、讯飞星火、智谱清言、商汤商量六款国产大模型。测试维度包括长文本识别筛选、问答、生成能力及多模态图文语音处理。结果显示 Kimi 在长文本方面表现突出，讯飞星火在多模态及音视频处理上领先，其他模型各有优劣。大模型竞争回归可用性，需结合实际场景选择。

开源信徒发布于 2025/2/6更新于 2026/7/2436 浏览

实测 6 款国产大模型实用性：长文本与多模态能力横向对比

实测 6 款国产大模型实用性：长文本与多模态能力横向对比

从卷参数、卷文本长度再到开卷多模态，国产大模型的角逐赛打得愈发激烈。特别是 2024 年初以来，'长文本'悄然走入大众视野，在众多晦涩技术用词之外，让不少用户眼前一亮。

今年 3 月，月之暗面的 Kimi 智能助手宣布可支持 200 万字上下文，紧随其后，通义千问免费开放 1000 万字的长文档处理功能；4 月，讯飞星火也可支持长文本、长图文、长语音，甚至还能进行超拟人语音对话、一句话声音复刻。5 月 14 日凌晨，OpenAI 推出最新旗舰大模型 GPT-4o，能够对文本、音频、图像的任意组合作为输入，并生成文本、音频和图像输出。

大模型能力竞争来到了新的水平线。

不过，不论是模型参数，还是长文本能力，都并非以数字取胜。简言之，大模型并非参数越大越好用，文本也并非越长，效果就越好。

大模型到底好不好用，长文本的价值究竟几何？为了解答这些疑问，我们对多款国产大模型进行了实测，横向比较了 Kimi、文心一言 3.5、通义千问、讯飞星火 3.5、智谱清言与商汤商量共 6 款国产大模型，以日常合同、保险赔付、学习辅导、会议资料整理与日常生活等垂直应用行业为具体案例，呈现 6 大国产大模型的差异之处。

Kimi 回答示例

长文本，好用还是鸡肋？

起初将长文本概念带火的正是月之暗面，其旗下的 Kimi 智能助手主打的就是长文本。

在月之暗面创始人杨植麟看来，通往通用人工智能（AGI）之路，无损的长上下文将会是一个很关键的基础技术。

目前，Kimi 支持 200 万字超长无损上下文，其相关负责人表示，长文本可进一步帮助打开对 AI 应用场景的想象力，包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体 Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。

当然，理论说明并不直观，既然 Kimi 号称有超强长文本能力，我们就来横向对比下，以日常合同、保险赔付、日常会议等为例，Kimi 与文心一言、通义千问、讯飞星火、商汤商量、智谱清言的差别所在。

长文本识别及筛选能力实测

我们在日常生活中有非常多合同使用的场景，而快速阅读字数繁多的合同、整理要点是普遍痛点，我们以房屋租赁合同为例，测试了以上几款产品在处理长文本上的能力。得到的结果如下：

Kimi 的回答详尽且条理清晰，重点信息也做了突出显示，把注意事项一一列举了出来。

Kimi 合同分析

讯飞星火的总结同样对要点进行了提炼，并一一列举了注意事项。

讯飞星火合同分析

通义千问的列举详尽，也对重点内容进行了标注。

通义千问合同分析

而文心一言的表现就略显差一些了，逻辑性不强，对信息的提取不够凝练。

文心一言合同分析

智谱清言同样交出了一份合格的回答，涵盖了核心重点内容。

智谱清言合同分析

商汤商量分为对话大模型和文档大模型，合同需要发给文档大模型处理，两个模型入口可能对用户来说不是很方便，在处理结果上，商汤大模型给出的回答也较为全面。

商汤商量合同分析

长文本问答能力实测

我们以汽车出险赔付为例，参照平安保险机动车商业保险条款，了解事故发生后我们该如何进行保险理赔。

Kimi 的回答依旧条理清晰，可行性较高，基本上解决了机动车出现事故后该具体如何操作问题。

Kimi 保险问答

讯飞星火的回答同样逻辑清晰，虽没有 Kimi 的解答那么细，但仍旧全盘列出了现场处理要点以及注意事项。

讯飞星火保险问答

文心一言的回复相对而言比较泛泛而谈，无法一步到位直接解决当下的问题。

文心一言保险问答

通义千问的回答同样有着不错的实用性，基本涵盖了事故发生后需要进行的操作。

通义千问保险问答

商汤商量的回答较为全面，依然需要在文档大模型中单独使用，操作上略有不便。

商汤商量保险问答

智谱清言在此问题上的回答虽然相对简略，但同样涵盖了核心步骤。

智谱清言保险问答

长文本生成能力实测

在具体的应用场景中，长文本除了识别与归纳，最核心的功能，就是生成功能了。这里我们设定需要这些大模型生成一份人工智能产业报告（2023）。

在长文本生成方面，Kimi 仍旧呈现出了显著的专业性，不仅内容探讨方向更加丰富，且专业内容扎实，实用度高，几乎可直接拿来做报告的初步提纲。

Kimi 报告生成

讯飞星火的文本生成能力同样可圈可点，虽在条理性上略逊 Kimi 一筹，但展现出了更强的文采能力。

讯飞星火报告生成

相比较之下，文心一言的学术性能力就稍逊一筹，产出的内容较为简单、基础，很难直接使用。

文心一言报告生成

通义千问的回答稍微有一点文不对题，虽然给出了一张封面，但具体内容可用性较弱。

通义千问报告生成

商汤商量生成的报告，在结构上比较完整，并涵盖了当前领域中的专业术语。

商汤商量报告生成

在长文本生成方面，智谱清言的回答中规中矩，有简单的基础信息，但还是专业度不足。

智谱清言报告生成

智谱清言报告生成补充

长图文、长语音，谁在抢跑多模态大模型

在大模型参数已经卷无可卷的当下，越来越多企业正在从细分方向突出重围，以让人们感觉大模型的好用之处。除了前文提及的长文本，多模态也是一个关键的研究方向。

对于人来说，多模态是一种十分自然的交互模式。但对于计算机来说，多模态却是极其复杂且困难的。

例如，随着 CNN 技术的突破，一度带动了人脸识别、视频识别技术的广泛应用，准确率可以远超人类，但该项技术却难以在文本理解方面取得显著的突破。直到 2023 年，大语言模型掀起了新一轮技术迭代，典型代表如 ChatGPT，才使得 AIGC 再度向前迈进了一步，但以上多项技术突破，仍旧是以单模态见长。

所以可以认为，当下能够处理更多模态信息的如文字、图像、视频、语音等多模态大模型，可以更加灵活自如的与人们交流互动，也就更加接近真正意义上的 AGI。

4 月底讯飞星火 3.5 的更新，就在努力朝这一方向演进。不久前商汤日日新 5.0 也刚刚更新，提升的核心指标也包括多模态能力，号称图文感知能力达到全球领先水平。通义千问与文心一言目前也均有多模态模型。Kimi 方面，实际上在 Sora 于今年初惊艳亮相之后，其内部就在推进多模态模型的研发，其联合创始人周昕宇表示，预计 2024 年会推出多模态模型及产品，但截至目前，相关产品仍未面世，可以说，在多模态能力方面，Kimi 已经晚了一步。

凤凰网科技也就目前已经发布的几款大模型的多模态处理能力，进行了综合实测。

比如我们上传了一张小米 su7 发布会的 PPT 实拍图，让大模型对该页 PPT 进行重点总结。

PPT 图片

讯飞星火准确的识别出了该张 PPT 中的重点信息，与此同时，对部分信息进行了推理，在多模态能力上呈现出了部分优势。

讯飞星火 PPT 分析

智谱也准确识别出 PPT 的信息，并在最后进行总结。

智谱清言 PPT 分析

商汤商量识别出了 PPT 中的主要文字信息，对于图片的识别能力稍逊色了一点点。

商汤商量 PPT 分析

通义千问和商汤的表现相近，整理了图片中的文字内容，但分析和归类能力较弱。

通义千问 PPT 分析

文心一言涉及了部分推理演绎，不过理解有部分错误，比如将 800cltc 续航里程和时速搞混了。

文心一言 PPT 分析

再比如我们在日常生活中有非常多辅导孩子学习的场景，我们截取了一张初中数学题的图片，交给大模型进行识别并给出解题思路。

数学题图片

商汤商量识别出了文字内容，并进行了解题，但解题思路有误，把长方形的长和宽搞错了，直接给出了错误答案。

商汤商量数学题

讯飞星火不仅精准的识别出了图片中的文字，并给出了十分精准且正确的解题思路。如果在日常辅导孩子学习的场景下，非常实用。

讯飞星火数学题

通义千问、文心一言和智谱清言的解题思路基本相近，但逻辑上不是特别清晰，对于辅导来说，比较难教给孩子清晰、有逻辑的解题思路。

通义千问数学题

文心一言数学题

智谱清言数学题

同样在图文识别方面，我们上传了 2023 年世界人工智能大会的议程，希望大模型能帮忙整理一份重点。

大会议程图片

文心一言识别的很全面细致，但归纳重点的能力稍逊。

文心一言议程

讯飞星火的内容识别凝练且主次分明，看起来更加方便。

讯飞星火议程

通义千问的信息提取较为全面，但缺乏对重要信息的筛选和过滤。

通义千问议程

商汤商量则将图片中的所有文字进行了提取，基本是原封不动的进行了复述。

商汤商量议程

智谱清言的识别最为丰富，对论坛信息进行了突出显示。

智谱清言议程

在音视频识别层面，目前业内布局尚不多：

我们上传了 2020 东京奥运会，乒乓球男单决赛樊振东与马龙对决的视频片段，让大模型为我们整理下视频的核心内容：

视频片段

讯飞星火对该视频内容进行了简要解析，并复述了该段落的核心内容。

讯飞星火视频

智谱清言则直接表示无视频分析能力。

智谱清言视频

实际上，目前文心一言、通义千问、商汤商量等均不支持音视频的上传与解析。

在音视频这类十分多见的应用场景中，讯飞星火已经有了显著的领先性。

讯飞星火视频分析

基因虽不同，但好用才是正义

当下，越来越多人开始追求大模型实用与否，尤其是在学习、办公、日常生活等常见场景下的具体应用。

可以看到，在长文本、长图文与长语音方面，几款国产大模型已经基本上有了显著差异，比如 Kimi 的确在长文本方面展现出了较强的能力，但遗憾的是，多模态能力的缺失，让 Kimi 的使用场景有显著的短板。

此外，加强后的商汤商量、讯飞星火，在多模态上已经比通义千问、文心一言的表现更亮眼一些，尤其是讯飞星火，本就有更强的逻辑推理能力和数学能力，加上多模态能力的提升，除了准确的识别文字，还能对音视频文件进行处理，应用场景更为广泛。

经过长文本识别与生成能力、多模态输入和识别能力、数理能力等几个维度，得出测试结果如下：

测试结果汇总

随着大模型的竞争进入新一层，各家已不再盲目追求参数，对于许多人而言，大模型之争，归根结底是要回归可用性，不然就是对算力资源的极大浪费。

当下，不管是大人辅导小孩学习、打工人整理会议记录、还是学生党整理学习笔记等应用场景，大模型正与人们的生活产生越来越多联系，而告别无意义的内卷，为人们创造更多实用价值，才是大模型技术发展所追求的目标。

目录

实测 6 款国产大模型实用性：长文本与多模态能力横向对比
长文本，好用还是鸡肋？
长文本识别及筛选能力实测
长文本问答能力实测
长文本生成能力实测
长图文、长语音，谁在抢跑多模态大模型
基因虽不同，但好用才是正义

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Mac mini M4 部署 OpenClaw + Ollama 本地大模型接入飞书机器人
MCP 插件配置指南：以 browser-tools-mcp 为例
在本地跑起大模型：Ollama + Open WebUI 搭建记录
OpenClaw 开源机器人实现空间智能记忆，具身智能新里程碑
VsCode 远程连接服务器后 GitHub Copilot 无法使用修复方案
网络安全行业入门指南：岗位方向与学习路径
前端内容创作 Agent 提示词
学术写作中重复率与 AIGC 检测风险的双重化解方案
Python 简易背景抠图方案实践与探索
豆包 Seedream 4.0 多图融合能力测评：田园犬与三花猫多场景创作
基于大模型的智能网页爬虫技术实现
从 vw/vh 到 clamp()，前端响应式设计的痛点与进化
智驿 AI 系统：基于 Spring Boot 与 Vue3 的前后端分离实践
机器人脑部药物递送三大技术路径可转化性分析
前端三年职业复盘：理想与现实的碰撞
PyTorch 文本引导图像生成技术与 Stable Diffusion 实践
MySQL 窗口函数与 JSON 数据类型实战教程
InspireFace 与其他开源人脸识别 SDK 性能对比与选型指南
动态规划经典题解：按摩师、打家劫舍、删除点数与粉刷房子
AI 绘画提示词工程与结构化创意引擎解析

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online