大模型发展现状与行业落地趋势分析
1. 大模型发展现状
以 2022 年底美国 OpenAI 公司发布 ChatGPT 产品为标志,AI 技术从感知判别向生成创造发展,以大模型为代表的 AI 技术发展迈上新台阶。2023 年以来,大模型已成为 IT 行业的核心议题。国内几乎大部分科技公司、学术团体、研究机构以及学生团队都在发布各自的大模型,国产大模型呈现出遍地开花、井喷式发展的状态。
根据公开资料,截至 2023 年底国内已经发布了近 300 个大模型,呈现'百模大战'局面。从发布大模型的厂商来看,大致可以分为三类:
1.1 互联网大厂
以百度、阿里、腾讯、华为等为代表。大厂资金雄厚,投入大量资金采购算力、数据,构建自有大模型。例如百度千帆大模型、阿里通义大模型、腾讯混元大模型等。大厂的大模型重点发力互联网市场,依托其庞大的用户生态和流量优势进行推广。
1.2 创业公司
以百川智能、智谱 AI 等为代表。这类公司通过创始人的影响力,以及敏锐的商业和技术眼光,抓住大模型机会,募集大量融资重点投入。它们通常以开源等方式迅速抢占市场,提升影响力。当前重点以打磨基座模型为主,通过开源产品提升影响力,募集资金,同时利用闭源产品发展合作生态,借助生态触达客户落地行业市场。
1.3 传统 IT 厂商
以浪潮、紫光、运营商等为代表。基于'开源大模型基座 + 迁移学习 + 微调'的技术路线,这也是国内大部分发布大模型的厂商走的技术路线。传统 IT 厂商借助对行业客户的触达力、影响力,以及业务沉淀,开发行业大模型,重点解决行业智能化场景。这个方向受限于国内外开源模型的能力制约,同时优质的行业数据资源成为影响模型性能的关键。
此外,当前中美人工智能领域的竞争日益激烈。除了 GPU 算力压制外,美国免费开源大模型已经开始冲击国内专注于自主训练大模型的厂商。以 Meta 发布的 Llama 2 为例,其性能超过 GPT-3,对国内许多闭门造大模型的公司是巨大打击。该模型能满足大多数公司对更低成本和个性化的需求。国内外已经开始形成一种共识:大模型本身并不具备护城河,而是某个闭源或开源大模型上面形成的应用生态将是最大护城河。

2. 大模型的主要能力和问题
2.1 核心能力:生成创造力
大模型区别于传统 AI 的核心能力在于其生成创造力。在互联网技术的推动下,原本分散在全球的知识变得易于获取,这不仅解决了知识难以触达的问题,还显著提高了知识传播的数量和效率。然而,这种知识传播仍停留在简单的搬运层面,仅仅发挥了类似人类手脚的功能,同时也导致了信息和知识的过度饱和。
大模型的出现改变了这一现状,它优化了人类与信息的互动方式。大模型在一定程度上承担了人类大脑的角色,帮助人们更快、更有效地吸收和理解知识。不仅如此,大模型还能将这些知识应用于实际场景中,创造出全新的内容,从而进一步提升知识传播的质量和效果。
根据布鲁姆教育目标分类法,人类对知识的处理有六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中都能发挥一定的作用,为人类大脑提供辅助。

2.2 主要问题:幻觉与安全
大模型的生成创造能力存在两种极端表现。一方面,由于其训练的数据规模远超人类,大模型展现出强大的能力。它能够回答各种基于事实的问题,并展现出出色的记忆能力,覆盖广泛的知识领域。另一方面,大模型也存在着所谓的幻觉问题。有时为了满足人类的预期,大模型可能会捏造不存在的事实。这主要是由于模型在处理信息时,对于某些模糊或不确定的情形,可能会产生错误的推理或生成不真实的内容。
除了大模型幻觉,大模型安全也是一个重要问题。安全问题有两个方面:
- 数据安全风险:大模型需要大量的训练语料,这些语料特别是行业专属语料,由于存在隐私信息,存在数据泄露、恶意利用风险。
- 内容合规风险:由于大模型在生成内容时具有很强的自主性和创造性,因此其生成的内容可能存在合规问题。具体来说,大模型可能无法准确判断某些词语或表达方式是否符合法律法规、社会道德和行业规范的要求,从而产生不合规甚至违法的内容。

