实测 6 款国产大模型实用性:长文本与多模态能力横向对比
从卷参数、卷文本长度再到开卷多模态,国产大模型的角逐赛打得愈发激烈。特别是 2024 年初以来,'长文本'悄然走入大众视野,在众多晦涩技术用词之外,让不少用户眼前一亮。
今年 3 月,月之暗面的 Kimi 智能助手宣布可支持 200 万字上下文,紧随其后,通义千问免费开放 1000 万字的长文档处理功能;4 月,讯飞星火也可支持长文本、长图文、长语音,甚至还能进行超拟人语音对话、一句话声音复刻。5 月 14 日凌晨,OpenAI 推出最新旗舰大模型 GPT-4o,能够对文本、音频、图像的任意组合作为输入,并生成文本、音频和图像输出。
大模型能力竞争来到了新的水平线。
不过,不论是模型参数,还是长文本能力,都并非以数字取胜。简言之,大模型并非参数越大越好用,文本也并非越长,效果就越好。
大模型到底好不好用,长文本的价值究竟几何?为了解答这些疑问,我们对多款国产大模型进行了实测,横向比较了 Kimi、文心一言 3.5、通义千问、讯飞星火 3.5、智谱清言与商汤商量共 6 款国产大模型,以日常合同、保险赔付、学习辅导、会议资料整理与日常生活等垂直应用行业为具体案例,呈现 6 大国产大模型的差异之处。

长文本,好用还是鸡肋?
起初将长文本概念带火的正是月之暗面,其旗下的 Kimi 智能助手主打的就是长文本。
在月之暗面创始人杨植麟看来,通往通用人工智能(AGI)之路,无损的长上下文将会是一个很关键的基础技术。
目前,Kimi 支持 200 万字超长无损上下文,其相关负责人表示,长文本可进一步帮助打开对 AI 应用场景的想象力,包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体 Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。
当然,理论说明并不直观,既然 Kimi 号称有超强长文本能力,我们就来横向对比下,以日常合同、保险赔付、日常会议等为例,Kimi 与文心一言、通义千问、讯飞星火、商汤商量、智谱清言的差别所在。
长文本识别及筛选能力实测
我们在日常生活中有非常多合同使用的场景,而快速阅读字数繁多的合同、整理要点是普遍痛点,我们以房屋租赁合同为例,测试了以上几款产品在处理长文本上的能力。得到的结果如下:
Kimi 的回答详尽且条理清晰,重点信息也做了突出显示,把注意事项一一列举了出来。

讯飞星火的总结同样对要点进行了提炼,并一一列举了注意事项。

通义千问的列举详尽,也对重点内容进行了标注。

而文心一言的表现就略显差一些了,逻辑性不强,对信息的提取不够凝练。








































