《大语言模型》中文书籍出版及技术框架介绍
背景与引言
近年来,大语言模型(Large Language Models, LLMs)作为人工智能领域的核心技术,已经深刻地影响了未来的科技发展趋势。学术界首篇系统介绍大语言模型技术的综述性文章《A Survey of Large Language Models》引用次数已突破 3700 次,为后续研究奠定了坚实基础。
为了进一步推动我国大模型技术的发展,该综述文章作者团队经过数月的写作与修订,正式出版了《大语言模型》中文书籍。该书注重为读者提供系统性的知识讲解,力图展现一个整体的大模型技术框架和路线图,内容权威且系统。
编著团队介绍
本书由中国人民大学师生联手打造,由赵鑫教授和文继荣教授领衔,博士生李军毅、周昆和硕士生唐天一参与编著。作者团队在大模型领域有着丰富的研究与开发经验,曾主导研发了文澜、玉兰等大模型。
- 赵鑫:中国人民大学高瓴人工智能学院教授,北京大学博士,国家自然科学基金优秀青年科学基金项目获得者。研究方向为大模型与自然语言处理。
- 文继荣:中国人民大学高瓴人工智能学院执行院长,国家高层次人才专家,曾任微软亚洲研究院高级研究员。长期从事人工智能和大数据领域的研究工作。
- 李军毅:新加坡国立大学研究员,研究方向为大模型与自然语言处理。
- 周昆:中国人民大学博士,曾获微软学者奖学金,研究方向为多模态理解与自然语言处理。
- 唐天一:阿里巴巴通义千问高级算法工程师,研究方向为大模型与自然语言处理。
书籍特色
1. 全面解读大语言模型
本书内容基本全覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助读者全面掌握大语言模型的核心技术。
2. 丰富的配套代码与工具
本书以核心算法技术为基础,并配有大量的代码实战与讲解,同时搭配相关的开发工具包 LLMBox 与 YuLan 大模型,供读者深入阅读理解相关技术。
3. 通俗易懂,专业权威
本书兼顾理论深度与阅读体验,以清晰的语言与丰富的图解,降低技术门槛,让初学者和专业人士都能轻松上手。
技术章节详解
第一部分 背景与基础知识
第 1 章 引言
本章介绍了人工智能的发展历史,特别是深度学习对自然语言处理的变革。阐述了大语言模型的定义、能力边界及其在通用人工智能(AGI)愿景中的地位。
第 2 章 基础介绍
涵盖 Transformer 架构的基本原理,包括自注意力机制(Self-Attention)、位置编码、前馈神经网络等核心组件。解释了模型如何从文本中学习语义表示。
第 3 章 大语言模型资源
梳理了自 2019 年以来的各学术机构的大语言模型发展历程,展示了近三年大模型的井喷式发展态势。列出了开源模型库、数据集及计算资源平台。
第二部分 预训练
第 4 章 数据准备
详细讲解了高质量语料的重要性。内容包括数据清洗、去重、隐私保护以及数据过滤技巧。书中收集了不同的预训练数据过滤方法,以'建议'的形式向读者展示具体的过滤流程。
第 5 章 模型架构
探讨了主流的大模型架构变体,如基于 LLaMA 模型的各类衍生工作。通过继续预训练、指令微调等方法,LLaMA 可以适配到不同的语言、多样的领域。分析了不同参数量级下的性能差异。
第 6 章 模型预训练
描述了大规模分布式训练的完整流程,包括数据并行、模型并行策略,以及训练过程中的稳定性优化技术。提供了预训练阶段的损失曲线分析与收敛判断标准。
第三部分 微调与对齐
第 7 章 指令微调
介绍了 Supervised Fine-Tuning (SFT) 技术。基于配套开发工具包 LLMBox 与 YuLan 大模型,展示了完整的指令微调代码,读者可以'端到端'上手实践。讲解了如何构建高质量的指令数据集。
第 8 章 人类对齐
深入探讨了 RLHF (Reinforcement Learning from Human Feedback) 及 DPO 等对齐技术。解释了如何通过奖励模型使模型输出更符合人类价值观,减少有害内容的生成。


