学习目标与重点
💡 目标:掌握 RNN 核心原理、经典变体结构,以及文本序列任务的实战开发流程。 💡 重点:理解 RNN 的循环计算机制,学会使用 TensorFlow/Keras 搭建基础 RNN 与 LSTM 模型,完成文本分类任务。
核心原理
为什么需要 RNN
传统的前馈神经网络(如 CNN、全连接网络)输入和输出相互独立,无法处理序列数据的上下文关联。自然语言、语音、时间序列等数据的核心特点是当前时刻信息与之前时刻紧密相关。循环神经网络通过引入隐藏状态存储历史信息,有效捕捉这种依赖关系。
RNN 的循环计算机制
RNN 的核心是循环核,本质是带有自连接的神经元。它在每个时间步接收输入数据和上一时刻的隐藏状态,计算当前输出和新隐藏状态。
计算过程分为三步:
- 初始化隐藏状态 $h_0$,通常设为全零向量。
- 对每个时间步 $t$,计算当前隐藏状态:$h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$。
- 根据隐藏状态计算输出:$y_t = W_{hy}h_t + b_y$。
⚠️ 注意:基础 RNN 存在梯度消失或爆炸问题,难以捕捉长序列依赖,实际应用中更多使用其变体。
import tensorflow as tf
from tensorflow.keras.layers import SimpleRNN
# 定义基础 RNN 层
# units: 隐藏状态维度,return_sequences: 是否返回所有时间步输出
rnn_layer = SimpleRNN(units=64, return_sequences=True, input_shape=(10, 20))
# 模拟输入:批次大小 32,序列长度 10,特征维度 20
input_seq = tf.random.normal(shape=(32, 10, 20))
# 执行 RNN 计算
output_seq = rnn_layer(input_seq)
print("RNN 输出形状:", output_seq.shape)
# 输出形状 (32, 10, 64)
梯度问题与改进方向
基础 RNN 在反向传播中梯度随时间步指数级衰减或膨胀,导致无法学习长距离依赖。研究者提出了长短期记忆网络(LSTM) 和 门控循环单元(GRU),通过门控机制控制信息遗忘和更新,缓解梯度消失。
经典变体——LSTM
LSTM 由 Hochreiter & Schmidhuber 于 1997 年提出,是最常用的 RNN 变体。它通过输入门、遗忘门和输出门协同作用,实现对历史信息的选择性记忆。
门控机制解析
- 遗忘门:决定丢弃哪些历史信息(sigmoid 输出 0~1)。
- :决定加入哪些新信息(筛选 + tanh 生成候选)。


