前言
人工智能领域的发展日新月异,大模型(Large Model)作为其中的明星技术,近年来引起了全球的关注。从 OpenAI 的 ChatGPT 到国内各大科技巨头如百度、阿里和华为等公司的布局,大模型正逐步改变着我们的生活。本文将带你走进大模型的世界,回顾大模型的发展历程,透视中国在这一领域的勃勃生机,揭秘驱动大模型的关键技术,并展望其商业应用的无限可能。
01 大模型的发展历程
一切始于一个简单却大胆的设想:如果能让机器理解并生成人类语言,世界将会怎样?20 世纪 90 年代,基于统计的语言模型初步崭露头角,但这只是冰山一角。真正的转折点出现在 2017 年,OpenAI 的 GPT-1 首次展示了深度学习在语言生成上的潜力,而 2018 年的 BERT 则利用双向 Transformer 架构,实现了前所未有的语境理解力,为后续的大模型时代铺平了道路。
大语言模型的发展可以粗略地分为如下三个阶段:基础模型阶段、能力探索阶段和突破发展阶段。
基础模型阶段(2018 年至 2021 年)
此阶段的研究主要集中在语言模型本身,包括对仅编码器(Encoder Only)、编码器 - 解码器(Encoder-Decoder)、仅解码器(Decoder Only)等各种类型的模型结构都有相应的研究。模型大小与 BERT 相类似的算法,通常采用预训练微调范式,针对不同下游任务进行微调。但是模型参数量在 10 亿以上时,由于微调的计算量很高,这类模型的影响力在当时相较 BERT 类模型有不小的差距。
能力探索阶段(2019 年至 2022 年)
由于大语言模型很难针对特定任务进行微调,研究人员开始探索在不针对单一任务进行微调的情况下如何发挥大语言模型的能力,相关研究方法在直接利用大语言模型进行零样本和少样本学习的基础上,逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法,有效提升了模型的性能。
突破发展阶段(2022 年至今)
以 2022 年 11 月 ChatGPT 的发布为起点:ChatGPT 通过一个简单的对话框,利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量定制开发才能分别实现的能力。2023 年 3 月 GPT-4 发布,相较于 ChatGPT 又有了非常明显的进步,并具备了多模态理解能力。GPT-4 在多种基准考试测试上的得分高于 88% 的应试者。各大公司和研究机构相继发布了此类系统,包括 Google 推出的 Bard、百度的文心一言、科大讯飞的星火大模型、智谱 ChatGLM、复旦大学 MOSS 等。
大语言模型的发展历程虽然只有短短几年,但是发展速度相当惊人,国内外已有超过百种大模型相继发布。
02 中国大模型的璀璨星空
在中国,大模型的发展紧跟全球步伐,甚至在某些领域已走在前列。近年来,多家科技巨头、研究机构及高校纷纷加入,推动了中国大模型的快速发展:
- 阿里云通义千问:阿里云推出的通义千问,旨在打造一个通用、强大的语言模型,能够应用于多种场景,包括但不限于智能客服、内容创作、知识检索等。通义千问利用阿里巴巴集团丰富的业务场景和数据资源,通过大规模预训练,提升了模型的理解与生成能力,力求在中文领域达到国际先进水平。
- 百度文心大模型:百度文心是百度基于多年 AI 技术积累打造的一系列大模型,涵盖了语言、图像、视频等多种模态。其中,文心 ERNIE 系列模型在多项国际权威评测中取得佳绩,展示出在语言理解、生成等方面的卓越能力。百度文心大模型在搜索优化、内容创作、智能推荐等领域有着广泛的应用,同时也是百度 AI 开放平台的重要组成部分,对外提供服务。
- 华为盘古大模型:华为推出的盘古大模型,侧重于行业应用的深度定制,特别是在智能制造、智慧城市、医疗健康等关键领域。盘古大模型利用华为在云计算、边缘计算以及硬件设备上的优势,实现了模型的高效部署和运行,为行业客户提供了从模型到解决方案的全方位支持。
- 科大讯飞星火大模型:科大讯飞推出的星火大模型,专注于语音和自然语言处理领域,利用其在语音识别、合成方面的深厚技术积累,构建了能够理解、生成高质量语音和文本的模型。星火大模型不仅提升了科大讯飞自有产品的智能化水平,也为合作伙伴提供了强大的 AI 技术支持。
- 智谱 GLM-130B:智谱 AI 推出的 GLM-130B,是一个双语千亿级超大规模预训练模型,体现了中国在大模型领域追求国际顶尖水平的决心。GLM-130B 在跨语言场景下的表现尤为突出,为促进中文与其他语言之间的信息交流和知识共享提供了强大的工具。
03 大模型的关键技术
大模型,即大规模预训练模型,是通过海量数据进行训练,形成强大的语言理解、生成及跨模态处理能力的人工智能技术。关键技术如下:
大规模预训练
这是大模型的核心技术,涉及使用数以亿计的参数和海量数据进行无监督学习,从而让模型能够学习到语言的普遍规律和丰富知识。模型在预训练后通常还需进行微调,以适应特定任务。预训练的目标函数通常是预测下一个词的概率,通过最大化似然估计来优化参数。


