循环神经网络（RNN）与序列数据处理实战

学习目标与重点

💡 目标：掌握 RNN 核心原理、经典变体结构，以及文本序列任务的实战开发流程。 💡 重点：理解 RNN 的循环计算机制，学会使用 TensorFlow/Keras 搭建基础 RNN 与 LSTM 模型，完成文本分类任务。

核心原理

为什么需要 RNN

传统的前馈神经网络（如 CNN、全连接网络）输入和输出相互独立，无法处理序列数据的上下文关联。自然语言、语音、时间序列等数据的核心特点是当前时刻信息与之前时刻紧密相关。循环神经网络通过引入隐藏状态存储历史信息，有效捕捉这种依赖关系。

RNN 的循环计算机制

RNN 的核心是循环核，本质是带有自连接的神经元。它在每个时间步接收输入数据和上一时刻的隐藏状态，计算当前输出和新隐藏状态。

计算过程分为三步：

初始化隐藏状态 $h_0$，通常设为全零向量。
对每个时间步 $t$，计算当前隐藏状态：$h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$。
根据隐藏状态计算输出：$y_t = W_{hy}h_t + b_y$。

⚠️ 注意：基础 RNN 存在梯度消失或爆炸问题，难以捕捉长序列依赖，实际应用中更多使用其变体。

import tensorflow as tf
from tensorflow.keras.layers import SimpleRNN

# 定义基础 RNN 层
# units: 隐藏状态维度，return_sequences: 是否返回所有时间步输出
rnn_layer = SimpleRNN(units=64, return_sequences=True, input_shape=(10, 20))

# 模拟输入：批次大小 32，序列长度 10，特征维度 20
input_seq = tf.random.normal(shape=(32, 10, 20))

# 执行 RNN 计算
output_seq = rnn_layer(input_seq)
print("RNN 输出形状：", output_seq.shape)
# 输出形状 (32, 10, 64)

梯度问题与改进方向

基础 RNN 在反向传播中梯度随时间步指数级衰减或膨胀，导致无法学习长距离依赖。研究者提出了长短期记忆网络（LSTM） 和 门控循环单元（GRU），通过门控机制控制信息遗忘和更新，缓解梯度消失。

经典变体——LSTM

LSTM 由 Hochreiter & Schmidhuber 于 1997 年提出，是最常用的 RNN 变体。它通过输入门、遗忘门和输出门协同作用，实现对历史信息的选择性记忆。

门控机制解析

遗忘门：决定丢弃哪些历史信息（sigmoid 输出 0~1）。
：决定加入哪些新信息（筛选 + tanh 生成候选）。

循环神经网络（RNN）与序列数据处理实战

学习目标与重点

核心原理

为什么需要 RNN

RNN 的循环计算机制

梯度问题与改进方向

经典变体——LSTM

门控机制解析

更多推荐文章

相关免费在线工具

代码实现

实战：基于 LSTM 的文本分类

任务介绍与数据集准备

搭建模型

编译与训练

优化技巧

GRU 简介

小结

更多推荐文章

相关免费在线工具

循环神经网络（RNN）与序列数据处理实战

学习目标与重点

核心原理

为什么需要 RNN

RNN 的循环计算机制

梯度问题与改进方向

经典变体——LSTM

门控机制解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码实现

实战：基于 LSTM 的文本分类

任务介绍与数据集准备

搭建模型

编译与训练

优化技巧

GRU 简介

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具