大模型的新一轮军备竞赛要开始了
通俗地讲,Scaling Law 就是通过更大规模的数据量和更高的算力,再加上更大参数的模型,让大模型能够处理更复杂的任务。最终,各家基础大模型公司的竞争方向就是砸钱堆算力。
但这似乎是个无底洞,一些公司选择了更正确的方式,开始通过积极寻求大模型商业化来应对这场持久战,并以实际应用的反馈来提升大模型的能力,百度便是其中之一。
最新发布的 2023 年 Q4 和全年财报显示,2023 年总营收达 1345.98 亿元,归属百度的净利润(non-GAAP)287 亿元,同比增速达 39%。2023 年,百度全年营收和利润均超市场预期。其中,以文心大模型与文心一言为代表的 AI 业务商业化方面取得重大进展。
这是大模型竞争逻辑转变的一个重要信号:大模型的训练、迭代升级不再是闭门造车,而转向实战。
这意味着大模型商业化能力的重要性进一步提升。一方面,市场将选择出最符合实际需要的大模型产品;更重要的是,通过自我造血,大模型训练需要持续投入的巨额资金才更有保证。
实战是大模型最好的训练场
在基础大模型领域重新锚定了 10 亿美元的入场资格之后,势必有一部分公司会被挤下牌桌。
这些面临竞争挑战的公司中,有很大比例是去年 ChatGPT 走红之后,才涌入基础大模型领域的创业公司。这些公司从零起步,对大模型的认识也不够深入,其训练的模型在理解、生成、逻辑和记忆能力没有足够的竞争优势,团队在寻求大模型商业化落地场景中也屡遭碰壁。
在新的竞争形势下,有能力参与大模型接下来竞争的公司都拥有更深的技术积累和市场认知。从进入大模型的时间来看,无论是创业公司的头部公司,还是互联网大厂里的做得好的公司,都是在 ChatGPT 走红之前,就看到了大模型的机会,并开始了布局。
比如,智谱 AI 和 MiniMax 分别成立于 2019 年和 2020 年,百度也在 2019 年 3 月就发布了文心大模型 1.0 版,他们在 ChatGPT 发布时已历经了三四年的技术深耕和研发迭代。去年 10 月,文心大模型已升级到 4.0 版本,在理解、生成、逻辑和记忆能力上都有着显著提升,综合水平与 GPT-4 相当。
这也意味着大模型的竞争已进入硬仗阶段。目前,最早一批研发的基础大模型都已开启商业化,对外开放调用之路,这也让这些大模型拥有了实践检验的机会,收获更强的市场竞争力。
据了解,三星、荣耀、汽车之家均与百度达成合作,调用文心大模型来提升产品的 AI 能力。其中,三星在最新款的 S24 旗舰手机上集成文心大模型的多项能力,包括通话、翻译、智能摘要等功能。尤其是'即圈即搜'功能,用户可以通过简单的手势操作在文字、图片或视频上进行圈画或划线,即可立即获得精准的搜索结果。
而此前百度公布的信息显示,截至去年 12 月底,文心一言用户规模突破 1 亿,累计完成了 37 亿字的文本创作,输出了 3 亿行代码,帮助用户处理了累计 4 亿字的专业合同,制定了 500 万次的旅行计划。
而去年 11 月,百度创始人兼 CEO 李彦宏在公开演讲时称,全国有 200 多家大模型,'文心大模型一家的调用量比这 200 多家大模型的调用量加起来还多。'
在百度 2023 年第四季度及全年财报电话会上,李彦宏透露了文心大模型的最新数据:文心大模型的日调用量已超过 5000 万次,季度环比增长 190%;12 月,约有 2.6 万家企业调用文心大模型,季度环比增长 150%。
文心大模型日调用量持续上涨,相比于还在闷头训练的大模型,庞大的调用量给予文心大模型更多反馈,反向促进了文心大模型的能力提升,形成飞轮效应。
真实的应用是文心大模型能力提升的最佳催化剂,同时也让百度能够更加精准洞察到市场需求,让大模型图文、视频等方向的迭代朝着市场需要的放心迭代进化。
市场会选择什么样的大模型?
技术能力是大模型能够获得市场认可的关键因素,但不是唯一的因素。
当下市场对大模型的需求主要集中在翻译、文案、客服、文档处理等多个方面,对大模型有需求的相关企业或是为了通过提升用户体验来获得更好的市场份额,或者通过技术提升公司内部的工作效率,背后都包含着成本和收益的核算。
从抽象层面来说,只有大模型给这些企业带来的收益高于使用成本,他们才愿意使用。而从具体的应用场景来说,不同企业考量的成本因素也各不相同。比如,一些原本技术能力薄弱公司在调用大模型的过程中,如果需要从 0 到 1 搭建一个专业的技术团队,这可能会最终促使其放弃,因为这个过程中涉及了非常复杂的沟通和管理成本,做不好还可能会赔了夫人又折兵。
经历过实战检验的大模型,才有可能洞察到不同客户的真实需求和顾虑。比如,作为国内最早一批开启商业化的基础大模型,文心大模型在和客户沟通过程中,洞察到了成本和使用门槛方面的顾虑,并结合自身的技术能力和市场需求,进行了改进。
平衡成本与收益的技术架构
在平衡成本和收益上,百度通过四层技术架构优势和端到端优化能力,不断降低文心大模型推理成本,提升效率。李彦宏在财报电话会上透露,自去年 3 月文心一言发布以来,文心大模型的推理成本已经下降至原来的 1%。通过文心和飞桨的协同优化,文心大模型的周均训练有效率超过 98%,训练算法效率提升 3.6 倍,推理性能提升 50 倍。对于企业和开发者来说,文心大模型已成为性价比最高的大模型。
这种成本的降低通常依赖于多种技术手段的综合应用,例如模型量化(Quantization)、剪枝(Pruning)以及知识蒸馏(Distillation)。通过将高精度浮点模型转换为低精度整数模型,可以在几乎不损失精度的情况下大幅减少显存占用和计算延迟。此外,针对特定场景的微调(Fine-tuning)也能避免全量训练带来的高昂开销。


