《自然语言处理:大模型理论与实践》
书籍简介
本书由赵宇教授与任福继教授联合编写,是一本深入探讨大语言模型世界的专业著作。作为自然语言处理(NLP)领域的权威参考书,它系统性地梳理了从基础理论到前沿实践的知识体系,为学术界和工业界提供了兼具前瞻性、系统性和实践性的指导。
随着以 ChatGPT 为代表的大语言模型技术的崛起,NLP 领域迎来了颠覆性变革。本书不仅刷新了传统知识体系,也推动了新一代人工智能技术的发展。无论是智能助手的语音识别,还是机器翻译与文本生成,大模型技术正在以前所未有的速度改变着生活方式。
作者介绍
赵宇 西南财经大学教授,博导,四川省学术和技术带头人后备人选。现任金融智能与金融工程四川省重点实验室副主任,通用人工智能与数字经济创新团队负责人,计算机与人工智能学院实践能力中心主任。美国罗切斯特大学联合培养博士,法国巴黎六大高级访问学者,中国人工智能学会自然语言理解专委会委员。
任福继 日本工程院院士,欧盟科学院院士,日本工程会院士。在人工智能及软件工程领域拥有深厚的学术造诣和丰富的实践经验。
适用人群
本书主要面向高校的本科生、研究生及教学科研人员,适合作为教学用书或自学参考。书中附录部分特别介绍了与 NLP 密切相关的基础知识,如概率论、信息论、机器学习与强化学习等,帮助读者夯实理论基础。
内容架构详解
第一部分:语言模型基础
本部分奠定了自然语言处理的核心理论基础,涵盖了从传统统计方法到现代神经网络的演进。
- 词向量表示:详细讲解了独热表示、分布式表示以及 Word2Vec(CBOW、Skip-gram)、GloVe、ELMo 等经典模型,帮助读者理解如何将文本转化为计算机可处理的数值形式。
- 统计语言模型:介绍了 N-gram 模型及其平滑技术(如加一平滑),这是早期语言建模的基石。
- 神经语言模型:深入剖析了基于循环神经网络(RNN)的语言模型,包括结构原理与训练方法。
- 预测语言模型与 Transformer:重点讲解了 Seq2Seq 模型、注意力机制(Attention)以及 Transformer 架构。这是当前大模型的核心基础,包含 BERT、GPT-1 等预训练模型的解析。
- 使用范式:对比了预训练 - 微调范式与大模型 + 提示工程范式,为实际应用提供方法论指导。
第二部分:大模型理论
本部分聚焦于大语言模型的核心架构与训练机制,是理解大模型'黑箱'内部运作的关键。
- 大模型架构:分析了基于 Transformer 的编码、解码及编解码架构,同时探讨了非 Transformer 架构(如 FAT、AFT、RWKV)。此外还涉及归一化、激活函数、位置编码等配置细节。
- 多模态大模型:介绍了 ViT、CLIP、BLIP 及 BLIP-2 等视觉 - 语言模型,展示了大模型如何理解图像与文本的结合。
- 预训练与微调:详细阐述了预训练数据工程、任务设置、优化参数及可扩展训练技术。在微调方面,涵盖了指令微调、对齐微调(RLHF 算法)及偏好数据集构建。
- 提示工程与安全:讲解了提示词的组成、情境学习、提示链设计以及提示攻击与防御机制,确保模型应用的安全性。
- 概现与缩放法则:探讨了大模型中的概现(Emergence)现象、缩放法则对性能的影响,以及模型的可解释性与'黑箱'问题。
- 评估体系:建立了人工评估与自动评估的标准,涵盖准确性、鲁棒性、齐整性等指标,并列举了基本与高效评估任务。
第三部分:大模型实践
本部分将理论转化为实际生产力,指导开发者进行应用开发与落地。
- 编程基础:基于 Transformers 库讲解关键组件与对话模型实战。
- 微调实战:演示了如何使用 Transformers 原生接口及 LLaMA-Factory 工具进行大模型微调。
- 应用开发:提供了基于 OpenAI API、通义千问及 LangChain 框架的应用开发指南。内容包括入门程序、模型调用、数据连接、链式操作及记忆模块实现。
- 行业应用:探讨了大模型在金融、法律、医疗、旅游等新领域的应用场景及挑战。


