引言
2023 年 3 月,来自中国人民大学的团队在 arXiv 上发表了大模型综述论文《A Survey of Large Language Models》。该论文迅速在学术界和工业界引起广泛关注,成为了解大语言模型技术体系的重要参考资料。
![图示:大模型综述论文封面]
随着技术的快速迭代,该综述不断更新,目前已更新至第 13 个版本,正文内容达 83 页,收录参考文献 900 余篇。基于此综述的中文翻译版于 2023 年 8 月发布。为了更好地服务中文社区,团队于 2023 年底启动中文书籍编写工作,并于 2024 年 4 月完成初稿。
书籍概览
该书共 391 页,包含 447 篇参考文献。其目标读者为具备一定深度学习知识的高年级本科生和低年级研究生,旨在为对大模型技术感兴趣的初学者提供全面介绍,展示整体框架和发展方向。
![图示:书籍目录结构]
全书内容分为五大核心部分:
- 大模型基础:涵盖基本概念、发展历史与核心原理。
- 大模型预训练:讲解大规模语料处理、架构设计与训练策略。
- 大模型微调:包括指令微调、偏好对齐及高效微调技术。
- 提示词工程:探讨 Prompt 设计模式与优化方法。
- 智能体与应用:涉及 Agent 架构及垂直领域落地实践。
核心技术点解析
书中整理了大量精彩的数据与解读,帮助读者理解技术演进脉络。
LLaMA 系列模型进化
针对开源生态中影响深远的 LLaMA 系列,书中详细梳理了其衍生工作的进化图,展示了从基座模型到指令微调版本的演变路径,以及后续社区改进模型的分支情况。
混合专家模型(MoE)
混合专家模型作为提升模型效率的关键架构之一,书中对其进行了详细介绍,包括稀疏激活机制、路由算法及在实际训练中的挑战与解决方案。
智能体(Agent)
针对当下热门的智能体技术,书中探讨了 Agent 的定义、规划能力、记忆机制及工具调用方式,分析了其在自动化任务执行中的潜力。
专业领域模型
书中还列举了各专业领域内代表性的大语言模型与数据资源,涵盖了医疗、法律、金融等场景下的专用模型特点。
配套工具与资源
为了支持大模型技术的开发与传播,官方提供了以下相关资源:
LLMBox
LLMBox 是一个全面的代码工具库,专门用于开发和实现大语言模型。它基于统一化的训练流程和全面的模型评估框架,旨在成为训练和利用大语言模型的一站式解决方案。其内部集成了大量实用功能,实现了训练和利用阶段高度的灵活性和效率。
YuLan 大模型
YuLan 系列模型是中国人民大学高瓴人工智能学院师生共同开发的支持聊天的大语言模型。最新版本从头完成了整个预训练过程,并采用课程学习技术基于中英文双语数据进行有监督微调,包括高质量指令和人类偏好数据。
系统学习路径建议
在大模型时代,掌握 AI 工具已成为技术人的核心竞争力。针对自学遇到困难的开发者,以下梳理了系统的学习脉络,结合书籍内容与行业实践,划分为四个阶段:
阶段一:AI 大模型时代的基础理解
目标:了解 AI 大模型的基本概念、发展历程和核心原理。
核心内容:
- 人工智能简述与大模型起源:回顾 AI 发展史,理解 Transformer 架构的突破性意义。
- 大模型与通用人工智能:探讨大模型在 AGI 路径上的位置与局限性。
- GPT 模型的发展历程:分析 GPT-1 至 GPT-4 的迭代逻辑与能力提升点。
- 模型工程方法论:学习如何构建高效的模型训练流水线。
- 生产大模型实践:了解模型上线后的监控、维护与成本控制。


