液态神经网络系列（五）：梯度传播与连续系统——伴随灵敏度算法实战

引言：深度学习的显存墙

在上一篇中，我们共同完成了一个基于欧拉法的 LTCCell。如果你尝试增加积分的子步数（num_steps），或者将训练序列拉长到上千个步长，你可能会惊恐地发现：即使是强如 H100 这样的显卡，也会弹出那句令开发者心碎的 RuntimeError: CUDA out of memory。

为什么？因为在 PyTorch 的自动求导（Autograd）机制下，为了计算梯度，系统必须在前向传播时缓存每一个中间状态。在连续时间系统里，这意味着如果你为了精度在 t_0 到 t_1 之间积分了 1000 步，显存开销就会瞬间暴涨 1000 倍。

难道连续时间模型注定只能在玩具级的数据集上跑吗？

2018 年，陈天奇等人的论文《Neural Ordinary Differential Equations》获得了 NeurIPS 最佳论文奖，给出了解决这一难题的终极答案：伴随灵敏度算法（Adjoint Method）。它让我们可以像倒带一样计算梯度，将显存复杂度从 O(Time) 奇迹般地降低到了 O(1)。

今天，我们将拆解这个液态神经网络（LNN）背后的动力学引擎，并演示如何在实战中应用它。

一、核心痛点：为什么暴力求导不可行？

传统的反向传播（Backpropagation through Time, BPTT）本质上是链式法则的离散堆叠。

在 LTC 或 Neural ODE 中，状态演化是连续的：

$$h(T) = h(0) + \int_{0}^{T} f(h(t), t, \theta) dt$$

如果你使用普通的数值求解器（如 RK4），求解器会将这段积分拆解成无数个细小的微元步。PyTorch 会在内存中构建一张巨大的计算图，记录每一个微元步的输出。

当你的积分路径变长，或者为了捕捉高频信号而缩小步长时，显存消耗会呈线性增长。这堵显存墙隔绝了连续系统在大规模工业数据上的应用。

伴随方法（Adjoint Method）的核心思想是：既然前向传播是一个微分方程，那么梯度的演化是不是也遵循一个微分方程？如果是，我们能不能通过反向解这个梯度的微分方程来获取梯度，而不需要存储任何中间状态？

二、数学直觉：伴随状态（Adjoint State）的倒带艺术

我们定义一个伴随状态（Adjoint State） $a(t)$，它是损失函数 $L$ 对隐藏状态 $h(t)$ 的偏导数：

$$a(t) = \frac{\partial L}{\partial h(t)}$$

经过严谨的数学推导（基于拉格朗日乘数法），我们可以得到伴随状态随时间演化的微分方程。

这里的直觉非常迷人：

反向演化：注意伴随方程的导数项带一个负号。这意味着我们从 t=T（损失发生的地方）开始，逆着时间方向向 t=0 进行积分。
状态找回：伴随方程的右侧依赖于 h(t)。由于我们没有存储前向路径，我们需要在反向积分的同时，再次运行 ODE 求解器，从 h(T) 开始反向求出 h(t)。
参数梯度：一旦我们有了 a(t) 和 h(t) 的连续轨迹，计算参数 $\theta$ 的梯度就变成了一个简单的积分问题。

这种方法就像是在看电影：如果你想知道第 10 分钟发生了什么，你不需要把整部电影的每一帧都印成照片铺满房间，你只需要记住结局，然后按下倒带键，一边回退一边观察。

三、实战：在 PyTorch 中使用 torchdiffeq

为了实现 O(1) 显存的反向传播，我们通常不建议开发者从零手写伴随逻辑（涉及到底层的 C++ 优化和复杂的链式法则细节），而是使用 MIT 与陈天奇团队维护的开源库 torchdiffeq。

1. 核心接口：odeint_adjoint

torchdiffeq 提供了两个核心函数：odeint（普通模式）和 odeint_adjoint（伴随模式）。

from torchdiffeq import odeint_adjoint as odeint

class LTCFunction(nn.Module):
    """定义 LTC 的导数函数 f(h, t)"""
    def __init__(self, input_size, hidden_size):
        ().__init__()
        .tau = nn.Parameter(torch.ones(hidden_size))
        .A = nn.Parameter(torch.ones(hidden_size))
        .W = nn.Linear(input_size + hidden_size, hidden_size)

     ():
        
        
        
        x_t = get_input_at_time(t)
        s = torch.sigmoid(.W(torch.cat([x_t, h], dim=-)))
        dh_dt = -h / torch.(.tau) + (.A - h) * s
         dh_dt

求解器 (Solver)	特点	伴随模式下的建议
Euler	一阶精度，最快，但误差大	仅用于初步调试。
RK4	四阶龙格 - 库塔，经典固定步长	适用于采样频率非常固定的信号。
Dopri5	自适应步长（默认）	LNN 训练的首选。它能平衡精度与速度。
Adjoint-Specific	专门优化的伴随求解器	对于超长序列，建议配合 rtol（相对容差）进行微调。

液态神经网络系列（五）：梯度传播与连续系统——伴随灵敏度算法实战

引言：深度学习的显存墙

一、核心痛点：为什么暴力求导不可行？

二、数学直觉：伴随状态（Adjoint State）的倒带艺术

这里的直觉非常迷人：

三、实战：在 PyTorch 中使用 torchdiffeq

1. 核心接口：odeint_adjoint

更多推荐文章

相关免费在线工具

2. 内存恒定的训练循环

四、深度解析：数值求解器全景图

五、伴随方法的代价：时间换空间

六、总结：从模型层到算子层的进化

更多推荐文章

相关免费在线工具

液态神经网络系列（五）：梯度传播与连续系统——伴随灵敏度算法实战

引言：深度学习的显存墙

一、核心痛点：为什么暴力求导不可行？

二、数学直觉：伴随状态（Adjoint State）的倒带艺术

这里的直觉非常迷人：

三、实战：在 PyTorch 中使用 torchdiffeq

1. 核心接口：odeint_adjoint

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 内存恒定的训练循环

四、深度解析：数值求解器全景图

五、伴随方法的代价：时间换空间

六、总结：从模型层到算子层的进化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具