通俗理解Encoder-Decoder架构（T5类）

Ne0inhk

21 Mar 2026 — 12 min read

引言
Transformer基础知识
2.1 什么是Transformer？
2.2 注意力机制详解
2.3 位置编码的作用
Encoder-Decoder架构概述
3.1 Encoder的结构与功能
3.2 Decoder的结构与功能
3.3 Encoder-Decoder的交互方式
T5模型：Encoder-Decoder的典型代表
4.1 T5的起源与设计理念
4.2 Text-to-Text框架
4.3 T5的预训练任务
4.4 T5变体与参数规模
Encoder-Decoder在NLP中的应用
5.1 机器翻译
5.2 文本摘要
5.3 问答系统
5.4 其他生成任务
代码实现：从零构建简单Encoder-Decoder
6.1 环境准备
6.2 注意力层实现
6.3 Encoder层实现
6.4 Decoder层实现
6.5 完整模型组装
6.6 训练与推理示例
性能优化与挑战
7.1 计算效率问题
7.2 长序列处理
7.3 过拟合与泛化
7.4 优化技巧
T5与其他模型的比较
未来发展趋势
结论
参考文献

引言

在自然语言处理（NLP）领域，Encoder-Decoder架构已成为一种核心范式，尤其在生成式任务如机器翻译、文本摘要和对话系统中发挥着关键作用。其中，T5（Text-to-Text Transfer Transformer）模型作为Encoder-Decoder的典型代表，将所有NLP任务统一为“文本到文本”的形式，大大简化了模型的设计和应用。本文将以通俗易懂的方式，深入剖析Encoder-Decoder架构的核心原理，并以T5模型为例进行详细说明。

如果你是初学者，不要担心，我们会从基础概念入手，逐步展开；如果你是资深开发者，这里会有丰富的代码示例和优化建议。文章将结合图表、表格和代码，帮助你全面理解这一架构。关键词如“Encoder-Decoder架构”、“T5模型”、“Transformer注意力机制”将贯穿全文，以优化SEO搜索。

为什么选择T5？因为它不仅仅是一个模型，更是NLP范式的转变者。根据Google的研究，T5在多项基准测试中表现出色，能处理从分类到生成的各种任务。让我们开始吧！

上图展示了一个典型的Transformer-based Encoder-Decoder架构概览，帮助我们直观理解其结构。

Transformer基础知识

什么是Transformer？

Transformer模型于2017年由Vaswani等人提出，在论文《Attention Is All You Need》中首次亮相。它彻底改变了序列模型的设计，摒弃了传统的RNN和LSTM，转而依赖注意力机制（Attention Mechanism）来处理序列数据。

通俗地说，Transformer就像一个高效的“翻译官”，它能同时处理输入序列的所有部分，而非逐一处理。这得益于其并行计算能力。核心组件包括：

输入嵌入（Input Embedding）：将单词转换为向量。
位置编码（Positional Encoding）：添加位置信息，因为Transformer不具备序列顺序感。
多头注意力（Multi-Head Attention）：核心计算层。
前馈网络（Feed-Forward Network）：进一步处理特征。
层归一化（Layer Normalization）：稳定训练。

Transformer的架构分为Encoder和Decoder两部分，我们将在后续章节详细展开。

注意力机制详解

注意力机制是Transformer的灵魂。它模拟人类注意力，允许模型聚焦于序列中最相关的部分。公式上，自注意力（Self-Attention）计算如下：

[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V ]

其中，Q（Query）、K（Key）、V（Value）是输入向量的线性变换。通俗解释：Q是“问题”，K是“钥匙”，V是“价值”。softmax计算权重，然后加权求和。

多头注意力将这一过程并行化，提高表达能力。例如，8头注意力意味着8个独立的注意力计算，然后拼接。

上图可视化了注意力机制在Transformer中的工作流程，展示了查询、键和值的交互。

在Encoder中，使用自注意力；在Decoder中，除了自注意力，还有交叉注意力（Cross-Attention），用于连接Encoder的输出。

位置编码的作用

由于Transformer没有循环结构，它无法感知词序。因此，位置编码通过正弦和余弦函数添加：

[ PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right) ]
[ PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right) ]

这确保了模型能区分“猫追狗”和“狗追猫”。位置编码是固定的，但也有学习型变体。

Encoder-Decoder架构概述

Encoder的结构与功能

Encoder负责处理输入序列，将其编码为高维表示。通常堆叠多个Encoder层（例如6层）。

每个Encoder层包括：

多头自注意力子层。
前馈网络子层。
残差连接和层归一化。

输入序列（如句子）先嵌入，然后加位置编码，进入Encoder。输出是一个上下文丰富的表示向量，用于Decoder。

通俗比喻：Encoder像一个“情报收集员”，从输入中提取所有有用信息。

Decoder的结构与功能

Decoder生成输出序列。它也堆叠多个层，但每个层有三个子层：

掩码多头自注意力（Masked Multi-Head Attention）：防止看到未来词。
多头交叉注意力：关注Encoder的输出。
前馈网络。

Decoder在训练时使用教师强制（Teacher Forcing），推理时自回归生成。

比喻：Decoder是“故事讲述者”，基于Encoder的情报，一步步生成输出。

Encoder-Decoder的交互方式

交互主要通过交叉注意力实现。Decoder的Q来自自身，K和V来自Encoder输出。这允许Decoder在生成时参考整个输入。

在T5中，这一架构被扩展，支持更灵活的任务。

上图描绘了Encoder-Decoder的详细交互架构。

T5模型：Encoder-Decoder的典型代表

T5的起源与设计理念

T5由Google Research在2019年提出，全称“Text-to-Text Transfer Transformer”。核心理念：所有NLP任务都转换为文本输入到文本输出的形式。例如，翻译任务输入“translate English to French: Hello”，输出“Bonjour”。

这统一了框架，避免为每个任务设计特定头层。T5基于Transformer的Encoder-Decoder，预训练于Colossal Clean Crawled Corpus (C4)数据集。

Text-to-Text框架

所有任务前缀化：

分类： “classify: text” → “label”
摘要： “summarize: article” → “summary”

这使模型通用化。

T5的预训练任务

T5使用“span corruption”预训练：随机掩码15%的span，让模型重建。不同于BERT的词级掩码，T5的span级更适合生成。

训练目标：最大化似然。

T5变体与参数规模

T5有small (60M)、base (220M)、large (770M)、3B、11B变体。T5.1.1进一步优化。

表格：T5变体比较

变体	参数量	层数	隐藏维度	注意力头
Small	60M	6	512	8
Base	220M	12	768	12
Large	770M	24	1024	16
3B	3B	24	16384	32
11B	11B	24	65536	128

上图展示了T5的架构插图。

Encoder-Decoder在NLP中的应用

机器翻译

Encoder编码源语言，Decoder生成目标语言。T5在WMT基准上表现优异。

文本摘要

输入“summarize: long text”，输出摘要。

问答系统

“question: who is? context: text” → 答案。

其他生成任务

如情感分析、命名实体识别，都可文本化。

案例：使用T5进行翻译。

代码实现：从零构建简单Encoder-Decoder

环境准备

使用PyTorch。假设安装torch。

import torch import torch.nn as nn import torch.nn.functional as F import math

注意力层实现

classMultiHeadAttention(nn.Module):def__init__(self, d_model, num_heads):super().__init__() self.num_heads = num_heads self.d_model = d_model self.d_k = d_model // num_heads self.W_q = nn.Linear(d_model, d_model) self.W_k = nn.Linear(d_model, d_model) self.W_v = nn.Linear(d_model, d_model) self.W_o = nn.Linear(d_model, d_model)defscaled_dot_product_attention(self, Q, K, V, mask=None): scores = torch.matmul(Q, K.transpose(-2,-1))/ math.sqrt(self.d_k)if mask isnotNone: scores = scores.masked_fill(mask ==0,-1e9) attention = F.softmax(scores, dim=-1) output = torch.matmul(attention, V)return output, attention defforward(self, Q, K, V, mask=None): batch_size = Q.size(0) Q = self.W_q(Q).view(batch_size,-1, self.num_heads, self.d_k).transpose(1,2) K = self.W_k(K).view(batch_size,-1, self.num_heads, self.d_k).transpose(1,2) V = self.W_v(V).view(batch_size,-1, self.num_heads, self.d_k).transpose(1,2) output, attention = self.scaled_dot_product_attention(Q, K, V, mask) output = output.transpose(1,2).contiguous().view(batch_size,-1, self.d_model) output = self.W_o(output)return output, attention

Encoder层实现

classEncoderLayer(nn.Module):def__init__(self, d_model, num_heads, d_ff, dropout=0.1):super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = nn.Sequential( nn.Linear(d_model, d_ff), nn.ReLU(), nn.Linear(d_ff, d_model)) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) self.dropout = nn.Dropout(dropout)defforward(self, x, mask=None): attn_output, _ = self.self_attn(x, x, x, mask) x = self.norm1(x + self.dropout(attn_output)) ff_output = self.feed_forward(x) x = self.norm2(x + self.dropout(ff_output))return x

Decoder层实现

classDecoderLayer(nn.Module):def__init__(self, d_model, num_heads, d_ff, dropout=0.1):super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.cross_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = nn.Sequential( nn.Linear(d_model, d_ff), nn.ReLU(), nn.Linear(d_ff, d_model)) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) self.norm3 = nn.LayerNorm(d_model) self.dropout = nn.Dropout(dropout)defforward(self, x, enc_output, src_mask=None, tgt_mask=None): self_attn_output, _ = self.self_attn(x, x, x, tgt_mask) x = self.norm1(x + self.dropout(self_attn_output)) cross_attn_output, _ = self.cross_attn(x, enc_output, enc_output, src_mask) x = self.norm2(x + self.dropout(cross_attn_output)) ff_output = self.feed_forward(x) x = self.norm3(x + self.dropout(ff_output))return x

完整模型组装

classTransformer(nn.Module):def__init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_len, dropout=0.1):super().__init__() self.src_embedding = nn.Embedding(src_vocab_size, d_model) self.tgt_embedding = nn.Embedding(tgt_vocab_size, d_model) self.pos_encoding = PositionalEncoding(d_model, max_seq_len) self.encoder_layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout)for _ inrange(num_layers)]) self.decoder_layers = nn.ModuleList([DecoderLayer(d_model, num_heads, d_ff, dropout)for _ inrange(num_layers)]) self.linear = nn.Linear(d_model, tgt_vocab_size) self.dropout = nn.Dropout(dropout)defforward(self, src, tgt, src_mask=None, tgt_mask=None): src = self.dropout(self.pos_encoding(self.src_embedding(src))) tgt = self.dropout(self.pos_encoding(self.tgt_embedding(tgt))) enc_output = src for enc_layer in self.encoder_layers: enc_output = enc_layer(enc_output, src_mask) dec_output = tgt for dec_layer in self.decoder_layers: dec_output = dec_layer(dec_output, enc_output, src_mask, tgt_mask) output = self.linear(dec_output)return output classPositionalEncoding(nn.Module):def__init__(self, d_model, max_seq_len):super().__init__() pe = torch.zeros(max_seq_len, d_model) position = torch.arange(0, max_seq_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model,2).float()*(-math.log(10000.0)/ d_model)) pe[:,0::2]= torch.sin(position * div_term) pe[:,1::2]= torch.cos(position * div_term) pe = pe.unsqueeze(0) self.register_buffer('pe', pe)defforward(self, x):return x + self.pe[:,:x.size(1)]

训练与推理示例

训练代码示例：

# 假设数据加载 model = Transformer(src_vocab_size=10000, tgt_vocab_size=10000, d_model=512, num_heads=8, num_layers=6, d_ff=2048, max_seq_len=100) optimizer = torch.optim.Adam(model.parameters(), lr=0.001) criterion = nn.CrossEntropyLoss()for epoch inrange(10):for src, tgt in dataloader: output = model(src, tgt[:,:-1]) loss = criterion(output.view(-1, output.size(-1)), tgt[:,1:].view(-1)) optimizer.zero_grad() loss.backward() optimizer.step()

推理时，使用beam search或greedy decoding。

这个实现是一个简化版T5-like模型，你可以扩展到实际T5。

（字数统计：约2200字，本节结束）

性能优化与挑战

计算效率问题

Transformer的O(n^2)复杂度是瓶颈。优化：Sparse Attention、Reformer。

长序列处理

使用Longformer或BigBird扩展上下文。

过拟合与泛化

使用dropout、数据增强。

优化技巧

混合精度训练。
分布式训练。

图表：复杂度比较

模型	时间复杂度	空间复杂度
RNN	O(n)	O(n)
Transformer	O(n^2)	O(n^2)

T5与其他模型的比较

T5 vs BERT：BERT是Encoder-only，适合理解任务；T5是Encoder-Decoder，适合生成。

T5 vs GPT：GPT是Decoder-only，自回归生成；T5更通用。

上图是GPT、BERT、T5的比较表格。

表格：性能基准

任务	BERT (Large)	T5 (Base)	GPT-3
GLUE	87.1	88.9	89.3
SuperGLUE	77.3	84.9	85.2
SQuAD	91.2	92.5	93.1

未来发展趋势

随着LLM的兴起，Encoder-Decoder将继续演化。混合架构如T5与扩散模型结合。高效变体如FlashAttention将降低成本。

结论

通过本文，我们从基础到高级，通俗理解了Encoder-Decoder架构及其在T5中的应用。希望这篇文章对你有帮助！如果有疑问，欢迎在评论区互动讨论，比如“你如何应用T5到实际项目？”或分享你的代码优化经验。

参考文献

Vaswani et al., “Attention Is All You Need”, 2017.
Raffel et al., “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”, 2019.

感谢阅读！记得点赞、收藏、分享，以支持更多原创内容。

目录

引言