人工智能：循环神经网络（RNN）与序列数据处理实战 | 极客日志

Python

人工智能：循环神经网络（RNN）与序列数据处理实战

循环神经网络（RNN）与序列数据处理实战 !在这里插入图片描述 1.1 本章学习目标与重点 💡 **学习目标**：掌握循环神经网络的核心原理、经典变体结构，以及在文本序列任务中的实战开发流程。 💡 **学习重点**：理解 RNN 的循环计算机制，学会使用 TensorFlow/Keras 搭建基础 RNN 与 LSTM 模型，完成文本分类任务。 1.2 循环神经网络核心原理 1.2.1 为什么…

狂少发布于 2026/4/6更新于 2026/7/2598K 浏览

循环神经网络（RNN）与序列数据处理实战

在这里插入图片描述

1.1 本章学习目标与重点

💡 学习目标：掌握循环神经网络的核心原理、经典变体结构，以及在文本序列任务中的实战开发流程。
💡 学习重点：理解 RNN 的循环计算机制，学会使用 TensorFlow/Keras 搭建基础 RNN 与 LSTM 模型，完成文本分类任务。

1.2 循环神经网络核心原理

1.2.1 为什么需要 RNN

💡 传统的前馈神经网络（如 CNN、全连接网络）的输入和输出是相互独立的。它们无法处理序列数据的上下文关联特性。
序列数据在现实中十分常见，比如自然语言文本、语音信号、时间序列数据等。这些数据的核心特点是，当前时刻的信息和之前时刻的信息紧密相关。
循环神经网络通过引入隐藏状态，可以存储历史信息，从而有效捕捉序列数据的上下文依赖关系。

1.2.2 RNN 的循环计算机制

💡 RNN 的核心结构是循环核。它的本质是一个带有自连接的神经元结构。循环核会在每一个时间步接收输入数据和上一个时间步的隐藏状态，计算当前时间步的输出和新的隐藏状态。

RNN 的计算过程可以分为三个核心步骤：
① 初始化隐藏状态 h0h_0h0，通常设置为全零向量
② 对每个时间步 ttt，计算当前隐藏状态 ht=tanh⁡(Wxhxt+Whhht−1+bh)h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1} + b_h)ht=tanh(Wxhxt+Whhht−1+bh)
③ 根据隐藏状态计算当前时间步输出 yt=Whyht+byy_t = W_{hy}h_t + b_yyt=Whyht+by

⚠️ 注意：基础 RNN 存在梯度消失或梯度爆炸问题。它无法有效捕捉长序列的依赖关系，因此实际应用中更多使用其变体模型。

import tensorflow as tf from tensorflow.keras.layers import SimpleRNN # 定义基础 RNN 层# units: 隐藏状态维度，return_sequences: 是否返回所有时间步输出 rnn_layer = SimpleRNN(units=64, return_sequences=True, input_shape=(10,20))# 模拟输入：批次大小 32，序列长度 10，每个时间步特征维度 20 input_seq = tf.random.normal(shape=(32,10,20))# 执行 RNN 计算 output_seq = rnn_layer(input_seq)print("RNN 输出形状：", output_seq.shape)# 输出形状 (32, , )

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

from tensorflow.keras.layers import LSTM # 定义 LSTM 层# return_state: 是否返回最终的隐藏状态和细胞状态 lstm_layer = LSTM(units=128, return_sequences=False, return_state=True, input_shape=(10,20))# 执行 LSTM 计算 output, final_hidden_state, final_cell_state = lstm_layer(input_seq)print("LSTM 输出形状：", output.shape)# 输出形状 (32, 128)print("最终隐藏状态形状：", final_hidden_state.shape)# 形状 (32, 128)print("最终细胞状态形状：", final_cell_state.shape)# 形状 (32, 128)

from tensorflow.keras.datasets import imdb from tensorflow.keras.preprocessing.sequence import pad_sequences # 1. 加载数据集 vocab_size =10000 max_seq_len =200(x_train, y_train),(x_test, y_test)= imdb.load_data(num_words=vocab_size)# 2. 序列填充与截断 x_train = pad_sequences(x_train, maxlen=max_seq_len, padding="post", truncating="post") x_test = pad_sequences(x_test, maxlen=max_seq_len, padding="post", truncating="post")print("训练集形状：", x_train.shape)# (25000, 200)print("测试集形状：", x_test.shape)# (25000, 200)

from tensorflow.keras import Sequential from tensorflow.keras.layers import Embedding, Dense # 定义模型 embedding_dim =128 model = Sequential([# 嵌入层：input_dim=词汇表大小, output_dim=嵌入维度, input_length=序列长度 Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_seq_len),# LSTM 层：128 个隐藏单元 LSTM(units=128, dropout=0.2, recurrent_dropout=0.2),# 全连接分类层：输出 1 个值，sigmoid 激活 Dense(units=1, activation="sigmoid")])# 查看模型结构 model.summary()

# 1. 编译模型 model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])# 2. 训练模型 batch_size =64 epochs =5 history = model.fit( x_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.1)# 3. 评估模型 test_loss, test_acc = model.evaluate(x_test, y_test)print(f"测试集准确率：{test_acc:.4f}")

from tensorflow.keras.layers import Bidirectional # 替换原 LSTM 层为双向 LSTM Bidirectional(LSTM(units=128, dropout=0.2, recurrent_dropout=0.2))

from tensorflow.keras.callbacks import EarlyStopping # 定义早停回调函数 early_stopping = EarlyStopping(monitor="val_loss", patience=2, restore_best_weights=True)# 在训练时加入回调 model.fit(x_train, y_train, callbacks=[early_stopping])

from tensorflow.keras.layers import GRU # 定义 GRU 层 gru_layer = GRU(units=128, return_sequences=True, input_shape=(10,20)) gru_output = gru_layer(input_seq)print("GRU 输出形状：", gru_output.shape)

人工智能：循环神经网络（RNN）与序列数据处理实战

循环神经网络（RNN）与序列数据处理实战

1.1 本章学习目标与重点

1.2 循环神经网络核心原理

1.2.1 为什么需要 RNN

1.2.2 RNN 的循环计算机制

更多推荐文章

相关免费在线工具

1.2.3 RNN 的梯度问题与改进方向

1.3 经典 RNN 变体——长短期记忆网络（LSTM）

1.3.1 LSTM 的门控机制解析

1.3.2 LSTM 层的代码实现

1.4 实战：基于 LSTM 的文本分类任务

1.4.1 任务介绍与数据集准备

1.4.2 搭建 LSTM 文本分类模型

1.4.3 模型编译与训练

1.4.4 模型优化技巧

1.5 门控循环单元（GRU）简介

1.6 本章总结

更多推荐文章

相关免费在线工具

人工智能：循环神经网络（RNN）与序列数据处理实战

循环神经网络（RNN）与序列数据处理实战

1.1 本章学习目标与重点

1.2 循环神经网络核心原理

1.2.1 为什么需要 RNN

1.2.2 RNN 的循环计算机制

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.3 RNN 的梯度问题与改进方向

1.3 经典 RNN 变体——长短期记忆网络（LSTM）

1.3.1 LSTM 的门控机制解析

1.3.2 LSTM 层的代码实现

1.4 实战：基于 LSTM 的文本分类任务

1.4.1 任务介绍与数据集准备

1.4.2 搭建 LSTM 文本分类模型

1.4.3 模型编译与训练

1.4.4 模型优化技巧

1.5 门控循环单元（GRU）简介

1.6 本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具