Transformer 架构详解与大模型应用实战指南

Transformer 模型介绍

Transformer 是工业化、同质化的后深度学习模型，其设计目标是能够在高性能计算机（超级计算机）上以并行方式进行计算。通过同质化，一个 Transformer 模型可以执行各种任务，而不需要微调。Transformer 使用数十亿参数在数十亿条原始未标注数据上进行自监督学习。

这些后深度学习架构称为基础模型。基础模型 Transformer 是始于 2015 年的第四次工业革命的一部分（通过机器 - 机器自动化将万物互联）。工业 4.0 (I4.0) 的 AI，特别是自然语言处理 (NLP) 已经远远超越了过往时代，颠覆了以往的开发范式。

Transformer 架构具有革命性和颠覆性，它打破了过往 RNN 和 CNN 的主导地位。BERT 和 GPT 模型放弃了循环网络层，使用自注意力机制取而代之。Transformer 模型优于 RNN 和 CNN，这是 AI 历史上划时代的重大变化，Transformer 模型标示着 AI 新时代的开始。

推荐书籍：《基于 GPT-3、ChatGPT、GPT-4 等 Transformer 架构的自然语言处理》

出版信息

出版社：清华大学出版社
出版时间：2024 年 1 月

内容简介

Transformer 正在颠覆 AI 领域。市面上有众多平台和 Transformer 模型，哪些最符合你的需求？本书将引领你进入 Transformer 的世界，讲述不同模型和平台的优势，指出如何消除模型的缺点和问题。

本书分步展示如何微调 GPT-3 等预训练模型。研究机器翻译、语音转文本、文本转语音、问答等 NLP 任务，并介绍解决 NLP 难题的技术，甚至帮助你应对假新闻焦虑。

从书中可了解到，诸如 OpenAI 的高级平台将 Transformer 扩展到语言领域、计算机视觉领域，并允许使用 DALL-E 2、ChatGPT 和 GPT-4 生成代码。通过本书，你将了解到 Transformer 的工作原理以及如何实施 Transformer 来解决 NLP 问题。

主要内容概览

了解用于解决复杂语言问题的新技术。
将 GPT-3 与 T5、GPT-2 和基于 BERT 的 Transformer 的结果进行对比。
使用 TensorFlow、PyTorch 和 GPT-3 执行情感分析、文本摘要、非正式语言分析、机器翻译等任务。
了解 ViT 和 CLIP 如何标注图像（包括模糊化），并使用 DALL-E 从文本生成图像。
学习 ChatGPT 和 GPT-4 的高级提示工程机制。

详细目录结构

第 1 章 Transformer 模型介绍

1.1 Transformer 的生态系统 1.1.1 工业 4.0 1.1.2 基础模型 1.2 使用 Transformer 优化 NLP 模型 1.3 我们应该使用哪些资源 1.3.1 Transformer 4.0 无缝 API 的崛起 1.3.2 选择即用型 API 驱动库 1.3.3 选择 Transformer 模型 1.3.4 工业 4.0 AI 专家的技能要求 1.4 本章小结 1.5 练习题

第 2 章 Transformer 模型架构入门

2.1 Transformer 的崛起：注意力就是一切 2.1.1 编码器堆叠 2.1.2 解码器堆叠 2.2 训练和性能 2.3 Hugging Face 的 Transformer 模型 2.4 本章小结 2.5 练习题

第 3 章微调 BERT 模型

3.1 BERT 的架构 3.2 微调 BERT 3.2.1 选择硬件 3.2.2 安装使用 BERT 模型必需的 Hugging Face PyTorch 接口 3.2.3 导入模块 3.2.4 指定 Torch 使用 CUDA 3.2.5 加载数据集 3.2.6 创建句子、标注列表以及添加 [CLS] 和 [SEP] 词元 3.2.7 激活 BERT 词元分析器 3.2.8 处理数据 3.2.9 防止模型对填充词元进行注意力计算 3.2.10 将数据拆分为训练集和验证集 3.2.11 将所有数据转换为 torch 张量 3.2.12 选择批量大小并创建迭代器 3.2.13 BERT 模型配置 3.2.14 加载 Hugging Face BERT uncased base 模型 3.2.15 优化器分组参数 3.2.16 训练循环的超参数 3.2.17 训练循环 3.2.18 对训练进行评估 3.2.19 使用测试数据集进行预测和评估 3.2.20 使用马修斯相关系数进行评估 3.2.21 各批量的分数 3.2.22 整个数据集的马修斯评估 3.3 本章小结 3.4 练习题

Transformer 架构详解与大模型应用实战指南