01 技术:大模型发展呈现'规模定律',Transformer 为技术基座
1. 大模型'大力出奇迹'的背后:Scaling Law
大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复杂任务求解能力。
大模型发展普遍呈现'规模定律'(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如 OpenAI 的 GPT-1 到 GPT-3,参数量从 1.1 亿大幅提升至 1746 亿,GPT-4 非官方估计达到万亿参数,实现性能的突破。根据 Google 论文,这种大模型具有但小模型不具有的能力通常被称为'涌现能力'(Emergent Abilities)。随着参数量的增加,模型在推理、代码生成及多轮对话中的表现呈现出非线性的跃升,这验证了算力与数据投入对模型智能水平的决定性作用。
2. Transformer 是 LLM 基座,核心优势在于 Self-attention 机制
当前主流大模型普遍是基于 Transformer 模型进行设计的。Transformer 模型在 Google 团队 2017 年论文《Attention Is All You Need》中被首次提出,Transformer 的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。
相较于 RNN,Transformer 具有两个显著的优势:
- 处理长序列数据:RNN 受限于循环结构,难以处理长序列数据。Self-attention 机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。
- 实现并行化计算:RNN 作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而 Transformer 则可以一次性处理整个序列,大大提高了计算效率。
此外,Transformer 架构支持多头注意力机制,使得模型能够从不同子空间联合关注信息,进一步增强了特征提取能力,成为当前所有大模型的基础架构。
3. GPT 系列模型技术发展历程回顾
从技术角度来看,结合中国人民大学《大语言模型》的观点,GPT 在众多大模型角逐中能够取得瞩目,有以下几点值得注意:
- 可拓展的训练架构与学习范式:当谷歌 2017 年推出基于注意力机制的 Transformer 模型后,OpenAI 团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性,最终将 Transformer 拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为通用学习范式。
- 对于数据质量与数据规模的重视:高质量数据、超大规模数据成为 GPT 成功的关键基础,比如,OpenAI 将人类生成的对话数据和高质量的标注数据用于训练 ChatGPT,使得 ChatGPT 在与人机对话测试中展现出了优秀能力。
然而,我们认为 GPT 的成功并不是全部源自技术性因素,Transformer、RLHF 算法等等关键技术都并非 OpenAI 首创,并且也在被其他研究团队广泛使用。我们认为 OpenAI 能够从早期众多的技术路线中识别到并且坚定地去执行这条路线,这来自 OpenAI 团队足够的技术前瞻和策略定力。比如,OpenAI 在早期 GPT-2 的论文中,就深入讨论了基于大规模文本预训练的通用任务学习范式;再比如 GPT-3 将参数规模极限拓展到 175B,实际上,OpenAI 两篇关于 Scaling Law 的论文都是在 2020 年发表的,这说明在前期已经进行了比较充分的实验探索。
4. ChatGPT:一举成为现象级应用,引入 RLHF 算法改进训练数据
GPT 系列模型的技术演变(ChatGPT):在 GPT-3 的基础上,OpenAI 又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级,推出了 GPT-3.5 系列模型。2022 年 11 月,ChatGPT 正式上线,实现以对话形式解决多种任务,使得用户能够通过网络 API 体验到语言模型的强大功能。ChatGPT 仅用 5 天时间注册用户达到 100 万,约 2 个月注册用户达到 1 亿,成为 AIGC 领域的现象级应用。
OpenAI 在官网文章中介绍,ChatGPT 主要是沿用了 2022 年 1 月推出的 InstructGPT。InstructGPT 的核心技术是基于人类反馈的强化学习算法,即 RLHF 算法(Reinforcement Learning from Human Feedback),旨在改进模型与人类对齐的能力。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。这一过程显著提升了模型回答的安全性、有用性和指令遵循能力。
02 变现:API 同质化、订阅实现难,Agent 与 MaaS 探索破局之路
1. 大模型商业形态多元,B 端变现模式更清晰
我们认为大模型收费模式可以总结为 API、订阅、广告、定制化四种。首先,大模型最常见的商业模式基本遵循软件行业的 SaaS(Software as a Service),通用大模型通常会采取 API 模式,根据 tokens/调用次数/产出内容量等计价,大模型形成 AI 产品后,可以采用订阅制,按月/季/年向用户收取使用费。同时,AI 产品若具备一定程度的流量价值,能够吸引商家投放广告,从而收取广告费。
此外,服务内容可以不限于大模型本身,针对付费能力强的企业客户,部分厂商会提供软硬件一体的定制化解决方案,我们称之为 MaaS(Model as a Service)。从 AI 产品商业化程度来看,B 端变现模式更加清晰,C 端大多数产品仍然以免费为主。根据量子位智库,面向 B 端的 AI 产品从通用场景到垂直赛道分布较均匀,收入模式以会员订阅和按需付费为主,商业模式较为清晰,虽然(纯 B 端)市场占比只有 31%,但 80% 以上的产品均能实现营收。C 端 AI 产品以智能助手以及图像生成类的生产力工具为主,虽然用户量大(纯 C 端占比 50% 以上),但近 50% 的产品当前仍未有明确的收入模式,以免费为主。
2. 全球 API 定价呈现下降趋势
1)API:是大模型厂商最为普遍的营收模式,但我们也注意到由于大模型性能趋向同质化,全球 API 价格呈现下降趋势。今年 5 月,作为行业风向标的 OpenAI 发布 GPT-4o,面向 ChatGPT 所有付费和免费用户发布,支持免费试用,API 价格比 GPT-4-turbo 降低了 50%,输入价格低至 5 美元/百万 tokens;谷歌发布 Gemini 1.5 Flash 时也将输入价格定为 0.35 美元/百万 tokens。国内来看,5 月 6 日,AI 公司深度求索(DeepSeek)率先宣布降价,其发布的第二代 MoE 大模型 DeepSeek-V2 定为 0.001 元/千 tokens 的输入价格与 0.002 元/千 tokens 的输出价格,随后我们看到,智谱 AI、火山引擎、阿里云、百度、科大讯飞、腾讯云等国内主要大模型厂商迅速跟进。价格战表明算力成本降低与竞争加剧正在重塑行业格局。
2)订阅:有 ChatGPT 的成功案例,我们看到不少大模型厂商通过构建 AI 应用,尝试走付费订阅的路径。根据 Similarweb,月之暗面的智能助手 Kimi Chat 从推出时 16 万访问量到 2024 年 2 月的 292 万,再到 3 月的 1219 万,伴随其访问量的跃升,5 月 Kimi 上线'给 Kimi 加油'付费选项(最便宜的选项 99 元/93 天≈1.06 元/天),可获得高峰期优先使用权益。实现难度:订阅>API。然而,我们看到即使是 ChatGPT、runway 等具有代表性的大模型产品,用户留存度和粘性也尚未达到现有领先 C 端应用的水平。根据红杉资本研究,全球领先的 C 端应用拥有 60-65% 的 DAU/MAU,其中 WhatsApp 是 85%。相比之下,AI-first 应用的中位数为 14%,可能意味着用户还未在这些 AI 产品中找到能够每天使用它们的足够价值。
3. 破局之路:企业级需求快速增长,MaaS 助力降低模型使用门槛
MaaS 让企业更简洁地使用大模型。根据中国信通院的定义,MaaS 围绕低技术门槛、模型可共享、应用易适配三大特性,提供包括算力服务、平台服务、模型服务、数据集服务、AI 应用开发服务在内的全栈服务,使得企业能够快速高效地构建、部署、监控、调用模型,而无需开发和维护底层基础能力。云厂商正在加速布局 MaaS。目前,微软云 Azure、阿里云、华为云、腾讯云、百度云、京东云等 CSP 都已经推出了 MaaS 服务。以阿里云的魔搭 ModelScope 为例,支持用户使用来自达摩院大模型平台和 SOTA 模型矩阵的超过 300 个优质大模型,提供包括模型管理和下载、模型调优、训练、推理、部署、应用在内的一站式模型服务。
03 算力:大模型发展催生海量算力需求,预计带来千亿美元市场规模
1. 大模型技术与应用发展催生海量算力需求
大模型的发展受到能源、算力、显存、通信等多种资源的制约,本章我们主要讨论算力。训练端,大模型延续了 Scaling Law 的主流的技术路线,通过扩大参数规模和数据集的大小,来提升模型的性能,带来持续的算力需求,同时,在推理端,以 ChatGPT 为代表的 AI 应用也正在驱动算力需求指数级增长。根据 Jaime Sevilla 等人的研究,2010-2022 年在深度学习兴起背景下,机器学习训练算力增长了 100 亿倍,2016-2022 年,常规模型算力每 5 至 6 个月翻一倍,而大规模模型算力每 10 至 11 个月翻一倍。
2. 算力需求测算逻辑
我们主要考虑训练 + 推理两个阶段的算力需求。Transformer 模型训练和推理都是经过多次迭代完成的,一次训练迭代包含了前向传播和反向传播两个步骤,而一次推理迭代相当于一个前向传播过程。前向传播过程指将数据输入模型计算输出,反向传播是计算模型的梯度并存储梯度进行模型参数更新。根据 NVIDIA 论文《Reducing Activation Recomputation in Large Transformer Models》,反向传播的计算量大约是前向传播的 2 倍,因此可以得出,一次训练迭代(包含一次前向 + 一次反向)的计算量大约为一次推理迭代(包含一次前向)的 3 倍。
3. 大模型服务器成本测算
大模型的持续迭代升级将为 AI 芯片及服务器发展提供强劲动力。未来,我们假设有 100 家大模型实现持续经营,由于垂类大模型参数量通常在百亿至千亿量级,且数量较多,我们假设中位数 500 亿参数规模的模型有 50 个,通用大模型参数规模普遍更大,我们假设中位数分别为 1000 亿、5000 亿、10000 亿参数规模的大模型分别有 25 个、15 个、10 个。假设单台服务器成本为 20 万美元,测算得到 AI 服务器的市场规模为 2301 亿美元。如果再考虑问答场景之外的推理场景,AI 服务器的市场规模将更加巨大。根据 IDC 数据,2023 年的全球 AI 服务器市场规模是 211 亿美元,相比 2023 年全球 AI 服务器市场规模,大模型的持续迭代升级将为 AI 服务器市场带来广阔的市场空间。
结语
综上所述,AI 大模型正处于技术爆发与商业化探索的关键节点。技术上,Scaling Law 与 Transformer 架构奠定了坚实基础,涌现能力不断拓展应用边界;商业上,B 端 MaaS 模式与 API 定价调整正在重塑盈利路径;基础设施上,算力需求的激增将推动硬件产业链持续扩容。未来,随着模型效率提升与应用场景深化,大模型将进一步渗透至各行各业,成为数字经济时代的核心生产力。