中国人工智能大模型技术白皮书核心内容总结
近期,中国人工智能协会发布了《中国人工智能大模型技术白皮书》,涵盖了大模型发展历程、关键技术、困难及挑战以及未来发展的展望。本文对白皮书的主要内容进行了系统梳理和总结。
1. 大模型技术概述
1.1 大模型技术的发展历程
自 2006 年 Geoffrey Hinton 提出通过逐层无监督预训练解决深层网络训练难题以来,深度学习在多个领域取得突破,经历了从标注数据监督学习到预训练模型,再到大模型的转变。2022 年底,OpenAI 发布的 ChatGPT 引发了广泛关注,展现了大模型在多场景、多用途、跨学科任务处理的能力。大模型被认为是未来人工智能领域的关键基础设施。
语言大模型作为此次热潮的引领者,通过大规模预训练学习大量语言知识与世界知识,具备面向多任务的通用求解能力。其发展经历了统计语言模型、神经语言模型、预训练语言模型到语言大模型(探索阶段)的四个阶段:
- 统计语言模型:基于马尔可夫假设,但受到数据稀疏问题影响;
- 神经语言模型:通过神经网络建模语义共现关系,能够捕获复杂语义依赖;
- 预训练语言模型:采用'预训练 + 微调'范式,通过自监督学习适配下游任务;
- 大模型:则基于扩展定律,随着模型参数和预训练数据规模的增加,模型能力与任务效果不断改善,还展示出了一些小规模模型所不具备的'涌现能力'。
1.2 大模型技术的生态发展
大模型技术生态正在发展,多种服务平台向个人开放和商业应用延伸。例如 OpenAI API 让用户通过 API 访问不同的 GPT 模型完成任务;Anthropic 开发的 Claude 系列模型强调有用性、诚实性和无害性;百度文心一言是基于知识增强的大模型,提供多种开放服务并建设了插件机制;讯飞星火认知大模型具有开放式知识问答、多轮对话、逻辑和数学能力。
大模型的开源生态也丰富多样,包括开源框架和开源大模型。开源框架如 PyTorch 和飞桨支持大规模分布式训练,OneFlow 支持动静态图灵活转换,DeepSpeed 减少冗余内存访问以训练更大模型。开源大模型如 LLaMA、Falcon 和 GLM 降低研究门槛,促进应用繁荣。Baichuan 系列模型支持中英双语,使用高质量训练数据,表现优秀,并开源了多种量化版本。CPM 系列在中文 NLP 任务上表现卓越。
1.3 大模型技术的风险与挑战
大模型技术仍存在许多风险和挑战:
- 可靠性问题:合成内容在事实性、时效性方面存在问题,可靠性无法得到有效保障;
- 可解释性不足:工作机理难以理解;
- 部署代价高:存在训练和推理计算量大、功耗高、应用成本高、端侧推理存在延迟等问题;
- 迁移能力不足:在大数据不足的情况下,面临鲁棒性和泛化性等挑战;
- 伴生技术风险:存在被滥用于制造虚假信息、恶意引导行为等安全风险问题,以及安全与隐私问题。
2. 语言大模型技术
2.1 Transformer 架构
Transformer 架构是语言大模型的基础,通过自注意力机制有效捕捉长距离依赖关系,成为当前主流架构。
2.2 语言大模型架构
主要包括掩码语言建模、自回归语言建模、序列到序列建模等模式,分别适用于不同的任务场景。
2.3 语言大模型关键技术
- 预训练:在大规模语料上进行无监督学习,构建基础语言理解能力;
- 适配微调:针对特定下游任务进行有监督调整,提升任务性能;
- 提示学习:通过自然语言指令引导模型输出,无需更新参数即可适应新任务;
- 知识增强:引入外部知识库或检索机制,弥补模型内部知识的不足;
- 工具学习:使模型能够调用外部工具(如计算器、API)来辅助完成复杂任务。


