神经网络常用优化技术详解：AdaGrad、RMSProp、Adam、学习率衰减与早停 | 极客日志

PythonAI算法

神经网络常用优化技术详解：AdaGrad、RMSProp、Adam、学习率衰减与早停

神经网络优化技术涉及多种算法以加速收敛并防止过拟合。AdaGrad 通过累积梯度平方自适应调整学习率，适合稀疏数据但学习率易衰减；RMSProp 引入指数加权移动平均解决该问题；Adam 结合动量与 RMSProp，成为默认首选；学习率衰减策略如指数或余弦衰减有助于后期稳定收敛；早停机制监控验证集性能提前终止训练以防过拟合。选择合适优化器需结合具体任务调参。

极光发布于 2025/2/7更新于 2026/6/326 浏览

神经网络常用优化技术详解

在深度学习中，优化算法的选择直接影响模型的收敛速度、最终性能以及训练稳定性。除了基础的随机梯度下降（SGD）外，现代深度学习框架提供了多种自适应优化器及辅助策略。本文将详细探讨 AdaGrad、RMSProp、Adam、学习率衰减以及早停（Early Stopping）这五种关键技术。

一、AdaGrad 优化器

AdaGrad（Adaptive Gradient Algorithm）是一种基于梯度的优化算法，它对每个参数的学习率进行自适应调整，特别适用于稀疏数据和高维数据集。

1. 核心原理

在标准的梯度下降算法中，所有参数共享相同的全局学习率。这在某些情况下并不理想，例如频繁更新的参数和不常更新的参数可能需要不同的步长才能达到更好的优化效果。AdaGrad 通过引入对历史梯度平方和的累积来调整每个参数的学习率，使得每个参数都拥有自己的动态学习率。

具体更新规则为：对于第 t 次迭代，参数 θ 的更新公式为： θ_t = θ_{t-1} - (η / √(G_t + ε)) * g_t 其中，G_t 是过去所有梯度平方的累积和，η 是初始学习率，ε 是为了防止除零的小常数。

2. 优缺点分析

优点：

自动调节学习率：无需手动为不同参数设置不同学习率，特别适合稀疏特征场景。
收敛稳定：对于变化剧烈的参数，能迅速减小学习率以避免震荡。

缺点：

学习率衰减过快：随着时间推移，累积的梯度平方和 G_t 会不断增大，导致分母变大，学习率单调递减至接近零。这可能导致模型训练过早停止或后期优化过于缓慢，无法有效跳出局部最优解。

3. 代码示例

import tensorflow as tf
import numpy as np

# 示例数据
X = np.array([[1], [2], [3], [4]], dtype=np.float32)
y = np.array([[2], [4], [6], [8]], dtype=np.float32)

# 构建模型和优化器
model = tf.keras.Sequential([tf.keras.layers.Dense(units=1)])
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.01)
loss_fn = tf.keras.losses.MeanSquaredError()

# 训练循环
for epoch in range(1000):
    with tf.GradientTape() as tape:
        predictions = model(X)
        loss = loss_fn(y, predictions)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

(, model.weights)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import tensorflow as tf
import numpy as np

# 示例数据
X = np.array([[1], [2], [3], [4]], dtype=np.float32)
y = np.array([[2], [4], [6], [8]], dtype=np.float32)

# 构建模型和优化器
model = tf.keras.Sequential([tf.keras.layers.Dense(units=1)])
optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.01)
loss_fn = tf.keras.losses.MeanSquaredError()

# 训练循环
for epoch in range(1000):
    with tf.GradientTape() as tape:
        predictions = model(X)
        loss = loss_fn(y, predictions)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

print("Weights after RMSProp:", model.weights)

import tensorflow as tf
import numpy as np

# 示例数据
X = np.array([[1], [2], [3], [4]], dtype=np.float32)
y = np.array([[2], [4], [6], [8]], dtype=np.float32)

# 构建模型和优化器
model = tf.keras.Sequential([tf.keras.layers.Dense(units=1)])
optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)
loss_fn = tf.keras.losses.MeanSquaredError()

# 训练循环
for epoch in range(1000):
    with tf.GradientTape() as tape:
        predictions = model(X)
        loss = loss_fn(y, predictions)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

print("Weights after Adam:", model.weights)

import tensorflow as tf
import numpy as np

# 示例数据
X = np.array([[1], [2], [3], [4]], dtype=np.float32)
y = np.array([[2], [4], [6], [8]], dtype=np.float32)

# 构建模型
model = tf.keras.Sequential([tf.keras.layers.Dense(units=1)])

# 定义衰减的学习率
initial_lr = 0.01
lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_lr, decay_steps=100, decay_rate=0.96, staircase=True)

# 使用衰减学习率与优化器
optimizer = tf.keras.optimizers.SGD(learning_rate=lr_schedule)
loss_fn = tf.keras.losses.MeanSquaredError()

# 训练循环
for epoch in range(1000):
    with tf.GradientTape() as tape:
        predictions = model(X)
        loss = loss_fn(y, predictions)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

print("Weights after learning rate decay:", model.weights)

from tensorflow.keras.callbacks import EarlyStopping

# 配置早停回调
early_stopping = EarlyStopping(
    monitor='val_loss',      # 监控验证集损失
    patience=10,             # 容忍 10 个 epoch 无改善
    restore_best_weights=True # 恢复最佳权重
)

# 在 fit 方法中使用
# model.fit(X_train, y_train, validation_data=(X_val, y_val), callbacks=[early_stopping])

优化技术	适用场景	主要优势	潜在风险
AdaGrad	稀疏数据	自动调整学习率	学习率衰减过快
RMSProp	通用深度学习	解决 AdaGrad 衰减问题	需调整衰减系数
Adam	大多数任务	收敛快，鲁棒性强	泛化性略逊于 SGD
学习率衰减	任何训练过程	提升最终精度	需调参确定策略
早停	易过拟合模型	节省时间，防过拟合	依赖验证集质量

神经网络常用优化技术详解：AdaGrad、RMSProp、Adam、学习率衰减与早停

神经网络常用优化技术详解

一、AdaGrad 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

更多推荐文章

相关免费在线工具

二、RMSProp 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

三、Adam 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

四、学习率衰减策略

1. 常见策略

2. 优缺点分析

3. 代码示例

五、早停（Early Stopping）

1. 核心机制

2. 优缺点分析

3. 代码示例

六、总结与对比

更多推荐文章

相关免费在线工具

神经网络常用优化技术详解：AdaGrad、RMSProp、Adam、学习率衰减与早停

神经网络常用优化技术详解

一、AdaGrad 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、RMSProp 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

三、Adam 优化器

1. 核心原理

2. 优缺点分析

3. 代码示例

四、学习率衰减策略

1. 常见策略

2. 优缺点分析

3. 代码示例

五、早停（Early Stopping）

1. 核心机制

2. 优缺点分析

3. 代码示例

六、总结与对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具