深度学习：激活函数大全

一、激活函数的核心作用

在深度学习中，激活函数（Activation Function）是神经网络的核心组件之一。如果没有激活函数，无论网络堆叠多少层，都只是线性变换的叠加，最终输出仍是输入的线性组合。这种线性模型连最简单的'异或（XOR）'问题都无法解决，更别说学习图像、语音、文本等复杂数据中的非线性模式。

激活函数的主要价值在于为神经网络引入非线性，但它的作用远不止于此：

打破线性局限：让网络能拟合任意复杂的函数（通用逼近定理）。
控制梯度流动：缓解梯度消失或爆炸，加速模型收敛。
输出归一化：将输出映射到特定范围（如 [0,1] 或 [-1,1]），便于概率解释或后续处理。

二、经典激活函数深度解析

激活函数	函数表达式	值域
Sigmoid	$f(x) = \frac{1}{1 + e^{-x}}$	(0, 1)
Tanh	$f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$	(-1, 1)
ReLU	$f(x) = \max(0, x)$	[0, +∞)
Leaky ReLU	$f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha x & \text{if } x \leq 0 \end{cases}$	(-∞, +∞)
ELU	$f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}$	(-α, +∞)
SELU	$f(x) = \lambda \begin{cases} x & \text{if } x > 0 \ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}$	(-λα, +∞)
Softmax	$f(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$	(0, 1)
Swish	$f(x) = x \cdot \text{sigmoid}(x) = \frac{x}{1 + e^{-x}}$	(-∞, +∞)
GELU	$f(x) = x \cdot \Phi(x) \approx 0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.044715x^3)))$	(-∞, +∞)
Mish	$f(x) = x \cdot \tanh(\ln(1 + e^x))$	(-∞, +∞)

场景	推荐激活函数	详细理由与适用模型	注意事项与替代方案
隐藏层（默认选择）	ReLU	计算高效（仅需比较操作），在正区间梯度恒为 1，彻底解决梯度消失问题；稀疏激活（约 50% 神经元输出为 0）带来隐式正则化效果。工业界事实标准，框架优化完善。适用：CNN、DNN、ResNet 等绝大多数前馈网络。	需配合 He 初始化；学习率不宜过大；注意可能出现的'死亡神经元'问题。
隐藏层（ReLU 失效时）	Leaky ReLU / PReLU	当出现大量死亡神经元（输出恒为 0）时使用。Leaky ReLU（α=0.01）负区间保留小梯度；PReLU 负区间斜率α可学习，在 ImageNet 上可比 ReLU 提升 1-2% 准确率。适用：GAN 判别器、某些 RNN、当 ReLU 训练出现停滞时。	Leaky ReLU 超参数固定，实现简单；PReLU 引入可学习参数，增加计算量但更灵活。
超深网络（>50 层）	SELU	自归一化激活函数，通过固定 λ≈1.0507 和 α≈1.6733 使每层输出均值为 0、方差为 1，无需 BatchNorm 层，训练更稳定，允许更大学习率。适用：超深全连接网络、自编码器、需要减少内存占用的场景。	必须配合：LeCun 正态初始化权重；连续全连接或卷积堆叠；Dropout 需使用 Alpha Dropout 变体。
Transformer / NLP 模型	GELU	基于概率视角（xΦ(x)）模拟神经元随机激活，在 Transformer 中与 LayerNorm 协同效果极佳，比 ReLU 在 BERT 上提升 1-2 个点（GLUE 基准），梯度平滑训练稳定。适用：BERT、GPT 系列、T5 等几乎所有现代 NLP 模型。	实际使用近似公式计算；已成为 NLP 领域事实标准；在非 Transformer 架构中收益可能不明显。
输出层 - 二分类/多标签/值域压缩	Sigmoid	将实数映射到 (0,1) 区间，不仅用于二分类概率输出，还广泛用于：音频掩码估计（值域 0-1）、预测分数归一化、多标签分类（每个标签独立判断）。输出具有直接的概率或比例解释。	注意梯度消失问题，深层网络隐藏层避免使用；多标签分类时每个输出节点独立使用 Sigmoid。
输出层 - 单标签多分类	Softmax	将多类输出转换为概率分布（总和为 1），适合单标签分类任务。可通过温度参数 T 控制输出分布的平滑度（e^{x_i/T}）。适用：图像分类、文本分类等单标签任务。	对异常值敏感（指数放大差异）；计算涉及所有类别，类别过多时考虑分层 Softmax 或采样方法。
轻量级/移动端模型	ReLU6 / Hard-Swish	ReLU6（f(x)=min(max(0,x),6)）限制最大激活值，提升低精度（FP16/INT8）量化稳定性，TFLite 默认推荐。Hard-Swish 是 Swish 的量化友好近似，计算量减少 80%，精度损失<0.5%。适用：MobileNet 系列、EfficientNet-Lite 等移动端模型。	ReLU6 是 ReLU 的直接替代；Hard-Swish 在 MobileNetV3 中表现优异，但实现稍复杂。
生成模型与自编码器	Tanh / SELU	Tanh 输出范围 (-1,1)，适合生成归一化数据（如图像像素），在 VAE、部分 GAN 生成器中常用。SELU 在深度自编码器中保持信号强度，无需精细调参即可训练深层生成网络。	Tanh 需注意梯度消失；SELU 需满足特定架构条件（同超深网络场景）。
需要平滑、非单调激活	Swish / Mish	Swish（x·sigmoid(x)）无上界有下界，在深层 CNN 中有时优于 ReLU（如 ImageNet）。Mish（x·tanh(softplus(x))）更平滑，在部分视觉任务上优于 GELU，计算比 GELU 简单但比 ReLU 复杂。	Swish 在早期 Transformer 中尝试过；Mish 在小模型上表现良好；两者计算开销均大于 ReLU。
需要自归一化且无需特定初始化	SELU（特定架构）	在满足条件（连续全连接/卷积、Alpha Dropout、无跳跃连接干扰）时，能自动维持数据分布稳定，大幅简化超深网络训练。适用：希望减少 BatchNorm 依赖的超深网络。	架构限制严格，不适用于残差连接密集的网络（如 ResNet）。

场景

推荐激活函数

详细理由与适用模型

注意事项与替代方案

隐藏层（默认选择）

ReLU

计算高效（仅需比较操作），在正区间梯度恒为 1，彻底解决梯度消失问题；稀疏激活（约 50% 神经元输出为 0）带来隐式正则化效果。工业界事实标准，框架优化完善。适用：CNN、DNN、ResNet 等绝大多数前馈网络。

需配合 He 初始化；学习率不宜过大；注意可能出现的'死亡神经元'问题。

隐藏层（ReLU 失效时）

Leaky ReLU / PReLU

当出现大量死亡神经元（输出恒为 0）时使用。Leaky ReLU（α=0.01）负区间保留小梯度；PReLU 负区间斜率α可学习，在 ImageNet 上可比 ReLU 提升 1-2% 准确率。适用：GAN 判别器、某些 RNN、当 ReLU 训练出现停滞时。

Leaky ReLU 超参数固定，实现简单；PReLU 引入可学习参数，增加计算量但更灵活。

超深网络（>50 层）

SELU

自归一化激活函数，通过固定 λ≈1.0507 和 α≈1.6733 使每层输出均值为 0、方差为 1，无需 BatchNorm 层，训练更稳定，允许更大学习率。适用：超深全连接网络、自编码器、需要减少内存占用的场景。

必须配合：LeCun 正态初始化权重；连续全连接或卷积堆叠；Dropout 需使用 Alpha Dropout 变体。

Transformer / NLP 模型

GELU

基于概率视角（xΦ(x)）模拟神经元随机激活，在 Transformer 中与 LayerNorm 协同效果极佳，比 ReLU 在 BERT 上提升 1-2 个点（GLUE 基准），梯度平滑训练稳定。适用：BERT、GPT 系列、T5 等几乎所有现代 NLP 模型。

实际使用近似公式计算；已成为 NLP 领域事实标准；在非 Transformer 架构中收益可能不明显。

输出层 - 二分类/多标签/值域压缩

Sigmoid

将实数映射到 (0,1) 区间，不仅用于二分类概率输出，还广泛用于：音频掩码估计（值域 0-1）、预测分数归一化、多标签分类（每个标签独立判断）。输出具有直接的概率或比例解释。

注意梯度消失问题，深层网络隐藏层避免使用；多标签分类时每个输出节点独立使用 Sigmoid。

输出层 - 单标签多分类

Softmax

将多类输出转换为概率分布（总和为 1），适合单标签分类任务。可通过温度参数 T 控制输出分布的平滑度（e^{x_i/T}）。适用：图像分类、文本分类等单标签任务。

对异常值敏感（指数放大差异）；计算涉及所有类别，类别过多时考虑分层 Softmax 或采样方法。

轻量级/移动端模型

ReLU6 / Hard-Swish

ReLU6（f(x)=min(max(0,x),6)）限制最大激活值，提升低精度（FP16/INT8）量化稳定性，TFLite 默认推荐。Hard-Swish 是 Swish 的量化友好近似，计算量减少 80%，精度损失<0.5%。适用：MobileNet 系列、EfficientNet-Lite 等移动端模型。

ReLU6 是 ReLU 的直接替代；Hard-Swish 在 MobileNetV3 中表现优异，但实现稍复杂。

生成模型与自编码器

Tanh / SELU

Tanh 输出范围 (-1,1)，适合生成归一化数据（如图像像素），在 VAE、部分 GAN 生成器中常用。SELU 在深度自编码器中保持信号强度，无需精细调参即可训练深层生成网络。

Tanh 需注意梯度消失；SELU 需满足特定架构条件（同超深网络场景）。

需要平滑、非单调激活

Swish / Mish

Swish（x·sigmoid(x)）无上界有下界，在深层 CNN 中有时优于 ReLU（如 ImageNet）。Mish（x·tanh(softplus(x))）更平滑，在部分视觉任务上优于 GELU，计算比 GELU 简单但比 ReLU 复杂。

Swish 在早期 Transformer 中尝试过；Mish 在小模型上表现良好；两者计算开销均大于 ReLU。

需要自归一化且无需特定初始化

SELU（特定架构）

在满足条件（连续全连接/卷积、Alpha Dropout、无跳跃连接干扰）时，能自动维持数据分布稳定，大幅简化超深网络训练。适用：希望减少 BatchNorm 依赖的超深网络。

架构限制严格，不适用于残差连接密集的网络（如 ResNet）。

深度学习：激活函数大全

一、激活函数的核心作用

二、经典激活函数深度解析

更多推荐文章

相关免费在线工具

2.1 Sigmoid 函数

2.2 Tanh 函数

2.3 ReLU

2.4 Leaky ReLU

2.5 ELU

2.6 SELU

2.7 Softmax 函数

2.8 Swish 函数

2.9 GELU

2.10 Mish 函数

三、激活函数的演进历程

四、如何选择合适的激活函数

更多推荐文章

相关免费在线工具

深度学习：激活函数大全

一、激活函数的核心作用

二、经典激活函数深度解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1 Sigmoid 函数

2.2 Tanh 函数

2.3 ReLU

2.4 Leaky ReLU

2.5 ELU

2.6 SELU

2.7 Softmax 函数

2.8 Swish 函数

2.9 GELU

2.10 Mish 函数

三、激活函数的演进历程

四、如何选择合适的激活函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具