中国人工智能大模型技术白皮书核心内容解读
近期,中国人工智能协会发布了《中国人工智能大模型技术白皮书》,涵盖了大模型发展历程、关键技术、困难及挑战以及未来发展的展望。本文对白皮书的主要内容进行了系统梳理。
目录概览
- 大模型技术概述
- 语言大模型技术
- 多模态大模型技术
- 大模型技术生态
- 大模型的开发训练与推理部署
- 大模型应用
- 大模型的安全性
- 总结与思考
第 1 章 大模型技术概述
1.1 大模型技术的发展历程
自 2006 年 Geoffrey Hinton 提出通过逐层无监督预训练解决深层网络训练难题以来,深度学习在多个领域取得突破,经历了从标注数据监督学习到预训练模型,再到大模型的转变。2022 年底,OpenAI 发布的 ChatGPT 引发了广泛关注,展现了大模型在多场景、多用途、跨学科任务处理的能力。大模型被认为是未来人工智能领域的关键基础设施。
语言大模型作为此次热潮的引领者,通过大规模预训练学习大量语言知识与世界知识,具备面向多任务的通用求解能力。其发展经历了统计语言模型、神经语言模型、预训练语言模型到语言大模型(探索阶段)的四个阶段:
- 统计语言模型:基于马尔可夫假设,但受到数据稀疏问题影响;
- 神经语言模型:通过神经网络建模语义共现关系,能够捕获复杂语义依赖;
- 预训练语言模型:采用'预训练 + 微调'范式,通过自监督学习适配下游任务;
- 大模型:基于扩展定律,随着模型参数和预训练数据规模的增加,模型能力与任务效果不断改善,还展示出了一些小规模模型所不具备的'涌现能力'。
1.2 大模型技术的风险与挑战
尽管前景广阔,大模型技术仍存在许多风险和挑战。其可靠性无法得到有效保障,合成内容在事实性、时效性方面存在问题。大模型的可解释性不足,其工作机理难以理解。此外,大模型应用部署代价高,存在训练和推理计算量大、功耗高、应用成本高、端侧推理存在延迟等问题。在大数据不足的情况下,大模型的迁移能力存在不足,面临鲁棒性和泛化性等挑战。此外,大模型还存在被滥用于制造虚假信息、恶意引导行为等伴生技术风险问题,以及安全与隐私问题。
第 2 章 语言大模型技术
2.1 Transformer 架构
Transformer 架构是语言大模型的基础,引入了自注意力机制,使得模型能够并行处理序列数据并捕捉长距离依赖关系。
2.2 语言大模型架构
主要包括掩码语言建模、自回归语言建模和序列到序列建模三种主要范式。
2.3 语言大模型关键技术
- 预训练:利用海量无标注数据进行基础能力构建;
- 适配微调:针对特定任务调整模型参数;
- 提示学习:通过自然语言指令引导模型输出;
- 知识增强:引入外部知识库提升准确性;
- 工具学习:使模型能够调用外部工具完成复杂任务。
OpenAI 研发了 GPT-1(1.1 亿参数)、GPT-2(15 亿参数)和 GPT-3(1750 亿参数)等不同规模的语言模型,谷歌则推出了 5400 亿参数的 PaLM 模型。当模型参数规模达到千亿量级,语言大模型展现出多方面能力跃升。例如,GPT-3 通过提示词或少数样例即可完成多种任务。CodeX 使用代码数据对 GPT-3 进行微调,提升代码和复杂推理能力;InstructGPT 和 ChatGPT 基于人类反馈的强化学习技术,强化对于人类指令的遵循能力和人类偏好的对齐能力;GPT-4 能够处理更长的上下文窗口,具备多模态理解能力,逻辑推理、复杂任务处理能力得到显著改进。
第 3 章 多模态大模型技术
3.1 多模态大模型的技术体系
涵盖面向理解任务、面向生成任务、兼顾理解和生成任务以及知识增强的多模态大模型。
3.2 多模态大模型的关键技术
包括网络结构设计、自监督学习优化以及下游任务微调适配。随着 GPT-4 的成功,语言大模型对多模态领域产生了重要影响,可以接受文本与图像组合的输入,更加符合人类的多渠道感知方式,应对更复杂的任务。GPT-4 表明,引入基于人类知识的自然语言能提升模型的多模态理解和生成能力。


