论文阅读：Attention is all you need

优质文章学习记录

07 Apr 2026 — 9 min read

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

引言

文章首先引入循环模型存在一个根本性的计算瓶颈，即循环模型通常沿输入和输出序列的符号位置进行计算，在计算时刻t，模型会根据前一时刻的隐藏状态ht-1和当前位置的输入生成新的隐藏状态ht，这种固有的顺序性导致无法在训练样本内部进行并行化计算，当序列长度增加时，由于内存限制限制了批处理（batching）的大小，这一问题变得尤为严重。

文章提出了Transformer模型架构，完全摒弃了循环和卷积，并通过完全依赖注意力机制来建立输入和输出之间的全局依赖关系，具有高度并行化和训练速度极快的特点。

模型架构

Transformer 模型摒弃了传统的循环或卷积结构，采用了基于注意力机制的编码器-解码器（Encoder-Decoder）架构。其中编码器由6个相同的层堆叠而成，每层包含两个子层：一个是多头自注意力机制，另一个是简单的基于位置的全连接前馈网络，每个子层周围都采用了残差连接随后进行层归一化；解码器由6个相同的层堆叠而成，除了编码器中的两个子层外，解码器插入了第三个子层，用于对编码器堆栈的输出执行多头注意力，解码器中的自注意力子层经过修改，引入了掩码（Masking）机制，这种掩码确保了对位置i的预测只能依赖于小于i的已知输出，从而保持了自回归属性。

对于注意力机制，缩放点积注意力输入包括查询、键和值，计算

Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V

，对于较大的dk值，点积结果的幅度会变大，导致 Softmax 函数进入梯度极小的区域，为了抵消这种影响，点积结果会除以

进行缩放；多头注意力不再执行单一的注意力功能，而是将查询、键和值分别线性投影h次到隐藏维度，这些投影后的版本并行执行注意力功能，输出结果被拼接并再次投影，得到最终值，这种机制允许模型在不同位置关注来自不同表示子空间的信息。

除了注意力子层外，编码器和解码器的每一层都包含一个全连接的前馈网络，该网络分别且相同地应用于每个位置，由两个线性变换和中间的一个 ReLU 激活函数组成；对于嵌入层和softmax，模型使用学习到的嵌入将输入和输出token转换为dmodel的向量，在两个嵌入层和 Softmax 前的线性变换之间共享相同的权重矩阵，且在嵌入层中，权重会乘以

由于模型不包含循环和卷积，为了利用序列的顺序信息，必须注入关于 Token 相对或绝对位置的信息【注意这里是否说明只有循环和卷积可以先天保持位置关系，即使是一维的】，位置编码被添加到编码器和解码器底部的输入嵌入中。具体而言，

PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})

，

PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})

。选择这种函数是因为它允许模型通过相对位置轻松学习关注，因为对于任何固定的偏移k，

都可以表示为

的线性函数。

为什么选择自注意力

自注意力机制连接所有位置的操作数是常数，相对的，RNN是O(N)，卷积层需要

或

层才能连接所有对的输入输出位置。当序列长度n小于表示维度d时，自注意力层的计算速度快于循环层。此外，显而易见的是由于可以看见注意力分布，attention的可解释性是很好的。

结果

对于不同参数的作用进行了分析，对于注意力头数与维度，保持计算量不变，调整注意力头数和键/值维度，单头注意力/过多的头数都会导致质量下降；减小注意力键的维度会损害模型质量；必须使用dropout（0.0的时候性能显著下降）；将正弦位置编码替换为学习到的位置嵌入，两者的结果几乎相同。作者最终选择正弦编码，是因为它可能允许模型推断出比训练期间遇到的序列更长的序列。

这里需要补充的内容：

1.关于inputs和outputs在不同任务中长什么样子

考虑机器翻译任务，inputs始终是原始语言的完整句子，一次性并行处理整个句子，生成 Key 和 Value 矩阵供 Decoder 查询。decoder侧在训练时使用shifted right的标准答案句子，例如，标准翻译是 <sos> Ich liebe dich <eos>，Decoder 的输入就是 <sos> Ich liebe dich。模型预测的下一个 token。位置 0 的输入 <sos> 预测 Ich，位置1的输入 Ich 预测 liebe... 这些是并行计算的，因为使用了 Mask 机制防止看到未来（只能利用之前的信息）；推理时使用自回归架构，Step 0的时候Encoder 输入 "I love you"。Decoder 输入 [<sos>]。Output 预测 Ich；Step 1:的时候Decoder 输入变成 [<sos>, Ich]。Output 预测 liebe......如此周而复始直到输出eos。
上下文续写通常只使用decoder部分，但是如果坚持用encoder-decoder架构的话就把原始文本放到encoder侧，然后decoder不断生成新的东西

2.为什么token不知道自己的位置

卷积神经网络（CNN）知道位置是因为卷积核是滑动的；循环神经网络（RNN）知道位置是因为它是按时间步t依次递归计算的，但是自注意力层实际上并不清楚位置，如果不加位置编码，对于模型来说，"I eat apple" 和 "apple eat I" 在 Self-Attention层看来是完全一样的“词袋”（因为相当于只是计算上下文的东西然后更新自己的向量，前后无所谓的）。

3.为什么需要sin/cos交替

这实际上构成了一组不同频率的波。低维度的波长短变化快，高维度的波长长变化慢（导致整体出来的d_model维度的位置编码类似二进制数字），这种组合能为每个位置生成一个独一无二的编码纹理。此外，对于pos+k，其编码向量可以看作是位置pos的编码向量*一个与pos无关、只与k有关的线性变换矩阵，这意味着模型在计算 Attention时，能够很容易地学到相对位置信息（不是绝对位置100和105的关系，而是“相距5个单位之间的关系”），这使得模型具有更好的外推性，即在训练时只见过短句子，测试时遇到比训练集更长的句子，这种相对位置的规律依然成立。

4.添加位置编码不会搞脏语义特征吗

使用的是高维度的d_model，在高维空间中，向量分布是非常稀疏的。位置编码向量和词嵌入向量在数学上倾向于正交，这意味着它们占据了空间中不同的“子空间”。模型可以通过学习不同的权重矩阵将这两种信息轻易地剥离出来，此外除了残差连接，Embedding 层会将权重乘以

，这意味着语义 Embedding 的数值量级被放大了，而位置编码 Sin/Cos 的值始终在[-1,1]之间，因此对原始语义特征的影响微乎其微。这里实际上是一种最简易的特征融合，类似相加，只不过加的东西是不可学习的罢了。

CosyVoice环境安装报错：安装openai-whisper时出现ModuleNotFoundError: No module named ‘pkg_resources‘的原因

先说如何解决，我个人采用源码安装，安装时禁用构建隔离： git clone https://github.com/openai/whisper.git cd whisper git checkout v20231117 pip install -e . --no-build-isolation 再说该问题产生的原因，下面是大D老师的回答，自行参考。太棒了！你找到了正确的解决方案。让我详细解释为什么会出现这个问题，以及为什么 --no-build-isolation 能解决它。 🔍 问题根源分析问题的关键在于 PEP 517/518 构建隔离机制和你的 setup.py 实现方式。 1. 构建隔离机制 (Build Isolation) 的工作原理当你执行 pip install -e .（不带 --no-build-isolation）时，

AIGC浪潮下，图文内容社区数据指标体系如何构建？

文章目录 * 01 案例：以图文内容社区为例实践数据指标体构建 * 02 4个步骤实现数据指标体系构建 * 1. 明确业务目标，梳理北极星指标 * 2. 梳理业务流程，明确过程指标 * 3. 指标下钻分级，构建多层级数据指标体系 * 4. 添加分析维度，构建完整的数据指标体系 * 03 构建数据指标体系的过程总结 * 作者简介 * 目录数据指标体系构建是数据分析师的日常工作之一，常见的指标体系方法论包括根据业务发展进程选取由合成略旦易于拆解的指标作为北极星指标。但在实际业务场景中如何运用方法论构建数据指标体系，以监控业务发展呢？互联网产品按照用户需求进行分类，可以分为工具类、内容类、社交类、交易类以及游戏类。当然，每一个互联网产品并不一定属于单一的某一类别，其类别可能是交叉的。那各种不同类型的互联网产品都有什么特点?它们对应的北极星指标又分别是什么呢?各类型互联网产品的特点以及北极星指标总结如表1所示。表 1 各类型互联网产品的特点以及北极星指标表1 各类型互联网产品的特点以及北极星指标表1各类型互联网产品的特点以及

实测10款论文免费降AIGC率工具推荐【2025年最新版】

最惨的事是什么？不是熬夜赶论文，也不是文献没看完。而是用AI写了一篇8000字的初稿，交给导师前顺手查了下AIGC率，直接82%。导师看完一句话：这个重新弄，别拿AI糊弄我。当时我真的崩溃了。手动改了三天，把每句话都换了个说法，结果AIGC率只降到75%。这种降低AI率的活，真的太折磨人了。后来我想通了，既然AI能写，肯定也有专门的降AI率工具来处理它。那段时间我把能找到的工具都试了个遍，付费的、免费降AI率工具的全都测过。该交的学费交了，该踩的坑也踩够了。这篇文章就是我实战后的经验总结。哪些工具真的能降AI，哪些纯属浪费时间，我全都给你讲明白。这篇文章适合： * AIGC率爆表急需救命的大学生 * 要提交开题、文献综述的研究生 * 想用AI写论文但怕被发现的偷懒党 ✍️ 10款工具实测结果 1、笔灵AI：真正懂学术论文的专业工具推荐指数： ★★★★★ 传送门：https://ibiling.cn/paper-pass?from=ZEEKLOGjiangaiyc1021 适合谁用：写毕业论文、课题报告的本硕博学生主要功能： * 针对知网、维

虚拟世界的AI魔法：AIGC引领元宇宙创作革命

云边有个稻草人-ZEEKLOG博客——个人主页热门文章_云边有个稻草人的博客-ZEEKLOG博客——本篇文章所属专栏 ~ 欢迎订阅~ 目录 1. 引言 2. 元宇宙与虚拟世界概述 2.1 什么是元宇宙？ 2.2 虚拟世界的构建 3. AIGC在元宇宙中的应用 3.1 AIGC生成虚拟世界环境 3.2 AIGC生成虚拟角色与NPC 3.3 AIGC创造虚拟物品与资产 4. AIGC在虚拟世界与元宇宙的技术实现 4.1 生成式对抗网络（GANs）在元宇宙中的应用 4.2 自然语言处理（NLP）与虚拟角色的对话生成 4.3 计算机视觉与物理引擎 5. 持续创新：AIGC与元宇宙的未来趋势 5.1 个人化与定制化体验 5.

Read more

CosyVoice环境安装报错：安装openai-whisper时出现ModuleNotFoundError: No module named ‘pkg_resources‘的原因

AIGC浪潮下，图文内容社区数据指标体系如何构建？

实测10款论文免费降AIGC率工具推荐【2025年最新版】

虚拟世界的AI魔法：AIGC引领元宇宙创作革命