大模型现状及行业落地趋势分析
大模型技术自 2022 年爆发以来,已从感知判别迈向生成创造。文章分析了当前大模型的发展现状,包括互联网大厂、创业公司及传统 IT 厂商的竞争格局,探讨了生成创造力、幻觉及安全等核心能力与问题。在行业落地方面,互联网行业侧重低成本快速迭代,政企行业则依赖行业数据微调构建专用模型。未来趋势指向多模态融合、端侧部署、智能体化及伦理法规完善,大模型将成为推动社会生产力变革的关键力量。

大模型技术自 2022 年爆发以来,已从感知判别迈向生成创造。文章分析了当前大模型的发展现状,包括互联网大厂、创业公司及传统 IT 厂商的竞争格局,探讨了生成创造力、幻觉及安全等核心能力与问题。在行业落地方面,互联网行业侧重低成本快速迭代,政企行业则依赖行业数据微调构建专用模型。未来趋势指向多模态融合、端侧部署、智能体化及伦理法规完善,大模型将成为推动社会生产力变革的关键力量。

以 2022 年底美国 OpenAI 公司发布 ChatGPT 产品为标志,AI 技术从感知判别向生成创造发展,以大模型为代表的 AI 技术发展迈上新台阶。2023 年以来,大模型已成为 IT 行业的核心议题。国内几乎大部分科技公司、学术团体、研究机构以及学生团队都在发布各自的大模型,国产大模型呈现出遍地开花、井喷式发展的状态。
根据公开资料,截至 2023 年底国内已经发布了近 300 个大模型,呈现'百模大战'局面。从发布大模型的厂商来看,大致可以分为三类:
以百度、阿里、腾讯、华为等为代表。大厂资金雄厚,投入大量资金采购算力、数据,构建自有大模型。例如百度千帆大模型、阿里通义大模型、腾讯混元大模型等。大厂的大模型重点发力互联网市场,依托其庞大的用户生态和流量优势进行推广。
以百川智能、智谱 AI 等为代表。这类公司通过创始人的影响力,以及敏锐的商业和技术眼光,抓住大模型机会,募集大量融资重点投入。它们通常以开源等方式迅速抢占市场,提升影响力。当前重点以打磨基座模型为主,通过开源产品提升影响力,募集资金,同时利用闭源产品发展合作生态,借助生态触达客户落地行业市场。
以浪潮、紫光、运营商等为代表。基于'开源大模型基座 + 迁移学习 + 微调'的技术路线,这也是国内大部分发布大模型的厂商走的技术路线。传统 IT 厂商借助对行业客户的触达力、影响力,以及业务沉淀,开发行业大模型,重点解决行业智能化场景。这个方向受限于国内外开源模型的能力制约,同时优质的行业数据资源成为影响模型性能的关键。
此外,当前中美人工智能领域的竞争日益激烈。除了 GPU 算力压制外,美国免费开源大模型已经开始冲击国内专注于自主训练大模型的厂商。以 Meta 发布的 Llama 2 为例,其性能超过 GPT-3,对国内许多闭门造大模型的公司是巨大打击。该模型能满足大多数公司对更低成本和个性化的需求。国内外已经开始形成一种共识:大模型本身并不具备护城河,而是某个闭源或开源大模型上面形成的应用生态将是最大护城河。

大模型区别于传统 AI 的核心能力在于其生成创造力。在互联网技术的推动下,原本分散在全球的知识变得易于获取,这不仅解决了知识难以触达的问题,还显著提高了知识传播的数量和效率。然而,这种知识传播仍停留在简单的搬运层面,仅仅发挥了类似人类手脚的功能,同时也导致了信息和知识的过度饱和。
大模型的出现改变了这一现状,它优化了人类与信息的互动方式。大模型在一定程度上承担了人类大脑的角色,帮助人们更快、更有效地吸收和理解知识。不仅如此,大模型还能将这些知识应用于实际场景中,创造出全新的内容,从而进一步提升知识传播的质量和效果。
根据布鲁姆教育目标分类法,人类对知识的处理有六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中都能发挥一定的作用,为人类大脑提供辅助。

大模型的生成创造能力存在两种极端表现。一方面,由于其训练的数据规模远超人类,大模型展现出强大的能力。它能够回答各种基于事实的问题,并展现出出色的记忆能力,覆盖广泛的知识领域。另一方面,大模型也存在着所谓的幻觉问题。有时为了满足人类的预期,大模型可能会捏造不存在的事实。这主要是由于模型在处理信息时,对于某些模糊或不确定的情形,可能会产生错误的推理或生成不真实的内容。
除了大模型幻觉,大模型安全也是一个重要问题。安全问题有两个方面:
为了缓解上述问题,业界正在探索多种技术方案:
大模型落地行业,必定是场景驱动,以场景带模型。从大模型应用方向上,按照大类,可以分为互联网行业、政企行业。
互联网行业对大模型有着强烈且天然的需求。在互联网行业中,对网络的要求通常是公开、透明和高度互联,而非私有化和隔离的,同时互联网行业的创业者们对产品开发通常要求低成本、快速迭代和创新,这为大模型的应用提供了广阔的舞台。
以百度千帆大模型为例,其最大的应用生态就是互联网中小型企业,其大模型也为中小型企业提供了客服问答、文档分析、数据分析、办公助手、代码助手、网页浏览、创意营销、商品导购、教育问答等标准应用场景,便于中小型企业快速构建各类创新型的智能应用产品。
政企行业主要是指政府、大中型企业,他们对数据安全要求高,个性化需求多,服务要求高。对以提供标准产品与服务的通用大模型服务来说,是比较难落地。因此基于行业数据资源,采用'通用大模型基座 + 迁移学习 + 微调'构建行业大模型,成为大模型落地政企行业的主要路径,这也造成大模型落地成本较高的问题。
对于政府来说,从 2023 年下半年的尝试及观望状态,伴随着厂商的市场培育,以及自身存在希望从大量繁琐重复的工作中释放的需求,预测从 2024 年逐步开始进行大模型实施落地阶段。2023 年底,安徽省大数据局发布了第一个省级数字政府大模型场景应用清单,拉开了将大模型等新技术应用到数字政府领域的序幕,接下来大模型将在政务咨询、辅助办理、城市治理、机关运行、辅助决策等方面提升服务智能化、精准化水平,提高政策制定的合理性、前瞻性,有效推进政府履职模式创新。同样在 12 月份广东省大数据局也发布《广东省加快数字政府领域通用人工智能应用工作方案》,预计在 2024 年将会有大量的省市级政府发布类似的大模型工作方案,各地政府以场景带模型、模型带产业发展的思路,必将在政府领域掀起一轮大模型应用高潮。
对于大中型企业来说,更是存在海量的需求,希望通过大模型来降低企业的经营成本。企业对大模型的需求主要是两个方面:
随着技术的不断成熟,大模型的发展将呈现以下趋势:
未来的大模型将不再局限于文本处理,而是向多模态方向发展,能够同时理解和生成文本、图像、音频、视频等多种形式的信息。这将极大地丰富人机交互的方式,使 AI 更加接近人类的感知能力。
随着芯片算力的提升和模型压缩技术的发展,大模型将逐渐从云端向端侧迁移。手机、PC、汽车等设备将内置轻量级大模型,实现离线智能服务,保护用户隐私的同时降低延迟。
大模型将从被动的问答工具转变为主动的智能体。Agent 能够自主规划任务、调用工具、执行操作,并在复杂环境中进行长期记忆和反思。这将推动 AI 从'对话'走向'行动',真正融入工作流和生活流。
随着大模型应用的深入,相关的伦理规范和法律法规也将逐步完善。数据隐私保护、算法透明度、责任归属等问题将成为行业关注的焦点。企业需要在追求技术创新的同时,严格遵守合规要求,确保技术向善。
综上所述,大模型技术正处于快速发展期,虽然面临幻觉、安全等挑战,但其在各行各业的应用潜力巨大。通过持续的技术创新和场景深耕,大模型有望成为推动社会生产力变革的关键力量。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online