Transformer 位置编码详解：绝对、相对与旋转位置编码 | 极客日志

PythonAI算法

Transformer 位置编码详解：绝对、相对与旋转位置编码

综述由AI生成Transformer 模型的位置编码机制是区分序列顺序的关键。详细解析了三种主流编码方法：绝对位置编码利用正弦余弦函数为每个位置生成唯一向量，简单但泛化性弱；相对位置编码关注元素间距离，适合长距离依赖；旋转位置编码（RoPE）通过向量旋转嵌入位置信息，支持长序列外推。文章提供了 Python 和 PyTorch 代码实现及对比分析，指出绝对编码适用于短文本，相对编码适合翻译任务，而 RoPE 已成为大语言模型的首选方案。

Ne0发布于 2025/2/6更新于 2026/6/332 浏览

1. 引言

Transformer 模型自 2017 年提出以来，凭借其在序列到序列任务中的优异表现，迅速成为自然语言处理（NLP）领域的主流模型。与传统的循环神经网络（RNN）不同，Transformer 模型完全基于自注意力机制，因此在处理长距离依赖关系方面有显著优势。然而，由于 Transformer 模型缺乏内置的序列顺序信息，必须通过位置编码（Positional Encoding）显式引入位置信息，以便模型能够区分序列中的不同位置。

位置编码是 Transformer 模型中一个至关重要的部分，直接影响到模型对序列信息的处理能力。本文将系统地介绍 Transformer 模型中的三种主要位置编码方法：绝对位置编码、相对位置编码和旋转位置编码。通过对这些方法的详细剖析，并结合具体代码和案例，深入探讨它们在实际应用中的表现和适用场景。

2. 绝对位置编码

2.1 绝对位置编码的原理

绝对位置编码（Absolute Positional Encoding）是最常见的一种位置编码方法，其思想是在每个输入序列的元素上添加一个位置向量，以表示该元素在序列中的具体位置。这个位置向量通常通过固定的函数生成，与输入数据无关。通常使用的是正弦和余弦函数，这样生成的编码具有很强的周期性，能够捕捉序列中的相对位置信息。

具体来说，对于序列中的第 pos 个位置，绝对位置编码向量的第 i 个维度的值定义如下：

$$ PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}}) $$ $$ PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}}) $$

其中，$pos$ 表示位置，$i$ 表示维度，$d_{model}$ 表示模型的隐藏层维度。

2.2 绝对位置编码的代码实现

接下来，我们将展示如何在代码中实现绝对位置编码，并以'我爱你，中国。'为例，展示位置编码后的向量表示。

import numpy as np
import matplotlib.pyplot as plt

def get_absolute_positional_encoding(seq_len, d_model):
    position = np.arange(seq_len)[:, np.newaxis]    
    div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))    
    pe = np.zeros((seq_len, d_model))    
    pe[:, 0::2] = np.sin(position * div_term)    
    pe[:, 1::2] = np.cos(position * div_term)    
    return pe

# 假设句子长度为 8，d_model 为 32
sentence = "我爱你，中国。"
seq_len = len(sentence)
d_model = 32

absolute_positional_encoding = get_absolute_positional_encoding(seq_len, d_model)

# 展示绝对位置编码的效果
plt.figure(figsize=(12, 8))
plt.imshow(absolute_positional_encoding, cmap='viridis')
plt.colorbar()
plt.title("Absolute Positional Encoding")
plt.xlabel()
plt.ylabel()
plt.show()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
import torch.nn.functional as F

class RelativePositionalEncoding(torch.nn.Module):
    def __init__(self, d_model, max_len=5000):     
        super(RelativePositionalEncoding, self).__init__()        
        self.d_model = d_model        
        self.max_len = max_len        
        
        # 生成相对位置编码        
        self.relative_positions_matrix = self.generate_relative_positions_matrix(max_len)        
        self.embeddings_table = self.create_embeddings_table(max_len, d_model)    
        
    def generate_relative_positions_matrix(self, length):    
        range_vec = torch.arange(length)        
        distance_mat = range_vec[None, :] - range_vec[:, None]        
        return distance_mat    
        
    def create_embeddings_table(self, max_len, d_model):    
        table = torch.zeros(max_len, max_len, d_model)        
        for pos in range(-max_len+1, max_len):        
            table[:, pos] = self.get_relative_positional_encoding(pos, d_model)        
        return table    
        
    def get_relative_positional_encoding(self, pos, d_model):   
        pos_encoding = torch.zeros(d_model)        
        for i in range(0, d_model, 2):         
            pos_encoding[i] = torch.sin(pos / (10000 ** ((2 * i)/d_model)))            
            if i + 1 < d_model:           
                pos_encoding[i + 1] = torch.cos(pos / (10000 ** ((2 * i)/d_model)))        
        return pos_encoding    
        
    def forward(self, length):    
        positions_matrix = self.relative_positions_matrix[:length, :length]        
        return F.embedding(positions_matrix, self.embeddings_table)

# 使用相对位置编码
sentence_length = 8
d_model = 32
relative_positional_encoding = RelativePositionalEncoding(d_model, max_len=sentence_length)
relative_positional_encodings = relative_positional_encoding(sentence_length)
print(relative_positional_encodings.shape)  # Output: torch.Size([8, 8, 32])

import torch
import math

def precompute_freqs_cis(dim, end, theta=10000.0):
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))
    t = torch.arange(end, device=freqs.device)  # type: ignore
    freqs = torch.outer(t, freqs).float()  # type: ignore
    freqs_cos = torch.cos(freqs)
    freqs_sin = torch.sin(freqs)
    return freqs_cos, freqs_sin

def apply_rotary_pos_emb(x, cos, sin):
    x1 = x[..., ::2]
    x2 = x[..., 1::2]
    cos = cos.unsqueeze(-2)
    sin = sin.unsqueeze(-2)
    out = torch.stack((x1 * cos - x2 * sin, x2 * cos + x1 * sin), dim=-1).flatten(-2)
    return out

# 模拟 Q 和 K 矩阵
batch_size = 1
seq_len = 8
d_model = 32
head_dim = d_model // 4  # 假设 4 heads

q = torch.randn(batch_size, seq_len, head_dim)
k = torch.randn(batch_size, seq_len, head_dim)

# 预计算 RoPE
freqs_cos, freqs_sin = precompute_freqs_cis(head_dim, seq_len)

# 应用 RoPE
q_rope = apply_rotary_pos_emb(q, freqs_cos, freqs_sin)
k_rope = apply_rotary_pos_emb(k, freqs_cos, freqs_sin)

print(f"Original Q shape: {q.shape}")
print(f"RoPE Q shape: {q_rope.shape}")

特性	绝对位置编码	相对位置编码	旋转位置编码 (RoPE)
原理	固定函数映射位置	基于位置差值的偏置	向量空间旋转
序列长度泛化	较差	较好	优秀
计算复杂度	低	中	中
适用场景	短文本、标准 NLP	长文本、翻译	大语言模型、长上下文
实现难度	简单	中等	较难

Transformer 位置编码详解：绝对、相对与旋转位置编码

1. 引言

2. 绝对位置编码

2.1 绝对位置编码的原理

2.2 绝对位置编码的代码实现

更多推荐文章

相关免费在线工具

2.3 案例分析

2.4 绝对位置编码的优缺点

3. 相对位置编码

3.1 相对位置编码的原理

3.2 公式推导

3.3 相对位置编码的代码实现

3.4 相对位置编码的优缺点

4. 旋转位置编码

4.1 旋转位置编码的原理

4.2 公式推导

4.3 旋转位置编码的代码实现

4.4 旋转位置编码的优缺点

5. 三种位置编码的比较与应用场景

5.1 应用场景

6. 总结

更多推荐文章

相关免费在线工具

Transformer 位置编码详解：绝对、相对与旋转位置编码

1. 引言

2. 绝对位置编码

2.1 绝对位置编码的原理

2.2 绝对位置编码的代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 案例分析

2.4 绝对位置编码的优缺点

3. 相对位置编码

3.1 相对位置编码的原理

3.2 公式推导

3.3 相对位置编码的代码实现

3.4 相对位置编码的优缺点

4. 旋转位置编码

4.1 旋转位置编码的原理

4.2 公式推导

4.3 旋转位置编码的代码实现

4.4 旋转位置编码的优缺点

5. 三种位置编码的比较与应用场景

5.1 应用场景

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具