书籍介绍
《大规模语言模型:从理论到实践》是一本由复旦大学计算机科学技术学院张奇教授领衔的团队编写的书籍,该书于 2024 年 1 月由电子工业出版社出版。
本书不仅基于作者团队在自然语言处理领域的深厚研究经验,还融合了分布式系统和并行计算的教学经验,旨在帮助读者深入理解大语言模型的原理,并提供实际操作的指导和案例。
核心内容概览
本书围绕大语言模型构建的四个主要阶段展开,详细介绍各阶段使用的算法、数据、难点及实践经验。这四个阶段分别是预训练、有监督微调、奖励建模和强化学习。
预训练阶段
预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能 GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的难点在于如何构建训练数据,以及如何高效地进行分布式训练。
在预训练中,模型通过无监督学习的方式从海量文本中捕捉语言的统计规律。构建高质量的训练语料是基础,需要清洗噪声、去重以及平衡不同领域的数据分布。同时,分布式训练涉及通信优化、显存管理以及容错机制,是工程落地的关键挑战。
有监督微调阶段
有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系及训练数据的规模。
通过指令微调(Instruction Tuning),模型能够学会遵循人类指令完成任务。数据构造的质量直接决定了模型在特定场景下的表现,需要精心设计提示模板和输出格式,确保模型泛化能力。
奖励建模阶段
奖励建模阶段的目标是构建一个文本质量对比模型,用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如何构建训练数据。
奖励模型通常采用成对比较的方式训练,即让模型判断两个回答哪个更好。这要求标注数据具有高度一致性,且奖励信号能够准确反映人类偏好。此外,奖励模型的过拟合问题也需要通过正则化和多样化数据来缓解。
强化学习阶段
强化学习阶段,根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性不高、超参数众多及模型收敛困难等问题。
常用的方法是 PPO(Proximal Policy Optimization)。在这一过程中,需要平衡策略更新步长和奖励增益,防止模型性能崩塌。超参数如学习率、KL 散度惩罚系数等都需要精细调优。
应用与评估
除了大语言模型的构建,本书还介绍了大语言模型的应用和评估方法,主要内容包括如何将大语言模型与外部工具和知识源进行连接、如何利用大语言模型进行自动规划,完成复杂任务,以及针对大语言模型的各类评估方法。
在实际应用中,RAG(检索增强生成)技术常被用来结合外部知识库,减少幻觉问题。评估方面,除了传统的 BLEU、ROUGE 指标外,现在更多关注人类反馈评分和任务完成率等维度。
专家寄语
金力 中国科学院院士,复旦大学校长
2022 年 11 月 ChatGPT 的出现,开启了大规模语言模型的新时代。面对人工智能(AI)大模型引发的广泛讨论,如何在日新月异的科技创新环境中赢得主动、在关键领域取得创新突破,是时代给予教育的新命题。 《大规模语言模型:从理论到实践》的作者对自然语言处理和大语言模型方法开展了广泛而深入的研究,该书及时地对大语言模型的理论基础和实践经验进行了介绍,可以为广大研究人员、学生和算法研究员提供很好的入门指南。
王小川 百川智能创始人兼 CEO
大规模语言模型的成功研发和应用,帮助人类开启了通用人工智能时代的大门。 《大规模语言模型:从理论到实践》是张奇教授等几位作者的倾心之作,作者以深厚的学术造诣和丰富的实践经验,为我们揭示了大规模语言模型的基础理论、技术演进、训练方法和实践应用。 本书不仅为读者提供了翔实的技术细节,更展示了作者对人工智能领域的严谨理解。对于从事自然语言处理、深度学习等领域的研究者和工程师来说,本书无疑是进入大规模语言模型领域的案头参考书。
王斌 小米集团 AI 实验室主任、自然语言处理首席科学家
我始终相信,大规模语言模型带来了一场新的科技革命,这场革命会逐渐渗透到整个社会的方方面面,带来极其深远的影响。了解、理解直至掌握大规模语言模型技术,对于众多技术从业者而言迫在眉睫。 出自复旦大学自然语言处理团队的这本书的出版适逢其时,作者团队堪称豪华,在学术界也一直以严谨著称。 这本书不仅介绍了大规模语言模型的基本概念和原理,还提供了大量的工程实践方法和示例代码。无论是初学者还是经验丰富的从业者,都会从中受益。
范建平 联想集团副总裁、联想研究院人工智能实验室负责人


