大模型架构解析：Attention is all you need 论文详解

白话文讲解大模型｜Attention is all you need

本文档旨在详细阐述当前主流的大模型技术架构，如 Transformer 架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档，期望为读者提供一个全面的理解，帮助大家掌握大模型的工作原理。

论文介绍

论文名称：《Attention is all you need》
发布时间：2017/06/12
发布单位：Google、多伦多大学
简单摘要：所有 LLM 的始祖，迈向 NLP 新时代的基础架构
中文摘要：传统的序列转换模型使用复杂的循环或卷积神经网络，包括编码器和解码器。表现最好的模型会透过注意力机制连接编码器和解码器。

作者团队提出了一种新的简单网络结构，Transformer，完全基于注意力机制，不再使用循环和卷积。在两个机器翻译任务上进行实验，发现这些模型在质量上的表现优越，并且更容易进行平行运算，训练所需时间明显减少。

该模型在 WMT 2014 年英德翻译任务上达到了 28.4 BLEU，比现有最佳结果（包括整体模型）提高了超过 2 BLEU。在 WMT 2014 年英法翻译任务中，模型在八个 GPU 上训练 3.5 天后，取得了新的单模型最佳 BLEU 分数 41.8，训练成本仅为文献中最佳模型的一小部分。

展示出无论是在大量或有限的训练数据下，Transformer 在其他任务中的泛化能力，成功应用于英语组成句分析。

LLM 浅谈

很多人认为大模型可以直接回答问题或参与对话，但实际上，它们的核心功能是根据输入的文本预测下一个可能出现的词汇，即'Token'。这种预测能力使得 LLM 在各种应用中表现出色，包括但不限于：

文本生成：LLM 可以生成连贯且有意义的文本段落，用于写作辅助、内容创作等。
问答系统：通过理解问题的上下文，LLM 能够生成准确的回答，广泛应用于智能客服和信息检索。
翻译：LLM 可以根据上下文进行高质量的语言翻译，支持多语言交流。
文本摘要：LLM 能够提取长文档的关键内容，生成简洁的摘要，方便快速理解。
对话系统：LLM 可以模拟人类对话，提供自然流畅的互动体验，应用于聊天机器人和虚拟助手。

Token 概念

谈到 token，不得不提到近期一个大模型被揪出来的低级错误'Strawberry 里有几个 r'。大家普遍认为，是 Tokenization（分词）的锅。

在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 token 指的未必是词，也可以是标点符号、数字或者某个单词的一部分。比如，在 OpenAI 提供的一个工具中，我们可以看到，Strawberry 这个单词就被分为了 Str-aw-berry 三个 token。在这种情况下，你让 AI 大模型数单词里有几个 r，属实是为难它。

为了让大家直观地看到大模型眼里的文字世界，Karpathy 特地写了一个小程序，用表情符号（emoji）来表示 token。

Token 示例代码

Token 是 LLM 理解的文本基本单位。虽然将 Token 看作单词很方便，但对 LLM 来说，目标是尽可能高效地编码文本。所以在许多情况下，Token 代表的字符序列比整个单词都要短或长。标点符号和空格也被表示为 Token，可能是单独或与其他字符组合表示。LLM 词汇中的每个 Token 都有一个唯一的标识符，通常是一个数字。LLM 使用分词器在常规文本字符串和等效的 Token 数列表之间进行转换。

import tiktoken

# 获取适用于 GPT-2 模型的编码器
encoding = tiktoken.encoding_for_model("gpt-2")

# 编码示例句子
encoded_text = encoding.encode("A journey of a thousand miles begins with a single step.")
print(encoded_text)

# 解码回原始文本
decoded_text = encoding.decode(encoded_text)
(decoded_text)


(encoding.decode([]))      
(encoding.decode([]))    
(encoding.decode([]))     


payment_encoded = encoding.encode()
(payment_encoded)            


(encoding.decode([]))     
(encoding.decode([]))

大模型架构解析：Attention is all you need 论文详解

白话文讲解大模型｜Attention is all you need

论文介绍

LLM 浅谈

Token 概念

Token 示例代码

更多推荐文章

相关免费在线工具

预测下一个 Token

模型训练

上下文窗口

从马尔可夫链到神经网络

Transformer 和注意力机制

Transformer 的输入

Self-Attention（自注意力机制）

Self-Attention 简介

工作流程

公式

Multi-Head Attention

Add & Norm 和 Feed Forward

Add & Norm (残差连接与层归一化)

残差连接 (Residual Connection)

层归一化 (Layer Normalization)

结合使用

Feed Forward (前馈神经网络)

作用

结构

总结

Decoder 结构

总结与展望

更多推荐文章

相关免费在线工具

大模型架构解析：Attention is all you need 论文详解

白话文讲解大模型｜Attention is all you need

论文介绍

LLM 浅谈

Token 概念

Token 示例代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

预测下一个 Token

模型训练

上下文窗口

从马尔可夫链到神经网络

Transformer 和注意力机制

Transformer 的输入

Self-Attention（自注意力机制）

Self-Attention 简介

工作流程

公式

Multi-Head Attention

Add & Norm 和 Feed Forward

Add & Norm (残差连接与层归一化)

残差连接 (Residual Connection)

层归一化 (Layer Normalization)

结合使用

Feed Forward (前馈神经网络)

作用

结构

总结

Decoder 结构

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具