液态神经网络系列（五） | 梯度传播与连续系统：伴随灵敏度算法（Adjoint Method）实战

Ne0inhk

21 Mar 2026 — 7 min read

🚀 引言：深度学习的“显存墙”

在上一篇中，我们共同完成了一个基于欧拉法的 LTCCell。如果你尝试增加积分的子步数（num_steps），或者将训练序列拉长到上千个步长，你可能会惊恐地发现：即使是强如 H100 这样的显卡，也会弹出那句令开发者心碎的 "RuntimeError: CUDA out of memory"。

为什么？因为在 PyTorch 的自动求导（Autograd）机制下，为了计算梯度，系统必须在前向传播时缓存每一个中间状态。在连续时间系统里，这意味着如果你为了精度在 $t_0$ 到 $t_1$ 之间积分了 1000 步，显存开销就会瞬间暴涨 1000 倍。

难道“连续时间模型”注定只能在玩具级的数据集上跑吗？

2018 年，陈天奇等人的论文《Neural Ordinary Differential Equations》获得了 NeurIPS 最佳论文奖，给出了解决这一难题的终极答案：伴随灵敏度算法（Adjoint Method）。它让我们可以像“倒带”一样计算梯度，将显存复杂度从 O(Time) 奇迹般地降低到了 O(1)。

今天，我们将拆解这个液态神经网络（LNN）背后的动力学引擎，并演示如何在实战中应用它。

一、核心痛点：为什么“暴力求导”不可行？

传统的反向传播（Backpropagation through Time, BPTT）本质上是链式法则的离散堆叠。

在 LTC 或 Neural ODE 中，状态演化是连续的：

h\left ( T \right )=h\left (0 \right ) +\int_{0}^{T}f\left ( h\left ( t \right ), t, \theta \right )dt

如果你使用普通的数值求解器（如 RK4），求解器会将这段积分拆解成无数个细小的微元步。PyTorch 会在内存中构建一张巨大的计算图，记录每一个微元步的输出。

当你的积分路径变长，或者为了捕捉高频信号而缩小步长时，显存消耗会呈线性增长。这堵“显存墙”隔绝了连续系统在大规模工业数据上的应用。

伴随方法（Adjoint Method）的核心思想是： 既然前向传播是一个微分方程，那么“梯度”的演化是不是也遵循一个微分方程？如果是，我们能不能通过反向解这个“梯度的微分方程”来获取梯度，而不需要存储任何中间状态？

二、数学直觉：伴随状态（Adjoint State）的“倒带”艺术

我们定义一个伴随状态（Adjoint State） $a(t)$，它是损失函数 $L$ 对隐藏状态 $h(t)$ 的偏导数：

a\left ( t \right ) = \frac{\partial L}{\partial h\left ( t \right )}

经过严谨的数学推导（基于拉格朗日乘数法），我们可以得到伴随状态随时间演化的微分方程：

这里的直觉非常迷人：

反向演化：注意伴随方程的导数项带一个负号。这意味着我们从 t=T（损失发生的地方）开始，逆着时间方向向 t=0 进行积分。
状态找回：伴随方程的右侧依赖于 h(t)。由于我们没有存储前向路径，我们需要在反向积分的同时，再次运行 ODE 求解器，从 $h(T)$ 开始反向求出 $h(t)$。
参数梯度：一旦我们有了 $a(t)$ 和 $h(t)$ 的连续轨迹，计算参数 $\theta$ 的梯度就变成了一个简单的积分问题：

这种方法就像是在看电影：如果你想知道第 10 分钟发生了什么，你不需要把整部电影的每一帧都印成照片铺满房间，你只需要记住结局，然后按下“倒带键”，一边回退一边观察。

三、实战：在 PyTorch 中使用 `torchdiffeq`

为了实现 $O(1)$ 显存的反向传播，我们通常不建议开发者从零手写伴随逻辑（涉及到底层的 C++ 优化和复杂的链式法则细节），而是使用 MIT 与陈天奇团队维护的开源库 torchdiffeq。

1. 核心接口：`odeint_adjoint`

torchdiffeq 提供了两个核心函数：odeint（普通模式）和 odeint_adjoint（伴随模式）。

from torchdiffeq import odeint_adjoint as odeint class LTCFunction(nn.Module): """定义 LTC 的导数函数 f(h, t)""" def __init__(self, input_size, hidden_size): super().__init__() self.tau = nn.Parameter(torch.ones(hidden_size)) self.A = nn.Parameter(torch.ones(hidden_size)) self.W = nn.Linear(input_size + hidden_size, hidden_size) def forward(self, t, h): # 假设输入 x(t) 是通过某种方式插值得到的 # 这里演示核心逻辑：dh/dt = -h/tau + (A-h)*S # 这里的 external_input 需要根据 t 动态获取 x_t = get_input_at_time(t) s = torch.sigmoid(self.W(torch.cat([x_t, h], dim=-1))) dh_dt = -h / torch.abs(self.tau) + (self.A - h) * s return dh_dt

2. 内存恒定的训练循环

当你调用 odeint_adjoint 时，PyTorch 的 Autograd 会在幕后使用伴随方法处理梯度。

# 初始化状态 h0 h0 = torch.zeros(batch_size, hidden_size) # 定义积分的时间跨度 t_span = torch.linspace(0, 1, seq_len) # 见证奇迹时刻：使用伴随方法积分 # method='dopri5' 使用自适应步长求解器 h_trajectory = odeint( LTCFunction(input_dim, hidden_dim), h0, t_span, method='dopri5', adjoint_params=model.parameters() # 关键参数：开启伴随梯度计算 ) # 计算 Loss 并反向传播 loss = criterion(h_trajectory, targets) loss.backward() # 此时会触发反向 ODE 积分

四、深度解析：数值求解器全景图

既然我们把求解过程交给了 odeint，选对“引擎”就变得至关重要。不同的求解器在伴随方法中的表现大相径庭。

求解器 (Solver)	特点	伴随模式下的建议
Euler	一阶精度，最快，但误差大	仅用于初步调试。
RK4	四阶龙格-库塔，经典固定步长	适用于采样频率非常固定的信号。
Dopri5	自适应步长（默认）	LNN 训练的首选。它能平衡精度与速度。
Adjoint-Specific	专门优化的伴随求解器	对于超长序列，建议配合 `rtol`（相对容差）进行微调。

五、伴随方法的“代价”：时间换空间

天下没有免费的午餐。伴随方法虽然消灭了“显存爆炸”，但它引入了额外的计算成本：

双倍计算量：在反向传播时，必须重新解一遍 ODE。这意味着训练时间通常是普通模式的 2 倍左右。
数值漂移（Numerical Drift）：如果你的系统是混沌的（Chaotic），反向积分回来的 $h(t)$ 可能与前向积分时的路径有微小偏差，这会导致梯度计算出现误差。

为什么 LNN 适合伴随方法？

液态神经网络（LNN）引入了物理上的稳定项（漏电导）。在数学上，LTC 系统具有耗散性（Dissipative），这意味着它天然倾向于收敛。这种稳定性使得反向积分过程中的数值漂移被大大抑制，从而让梯度计算比在普通的 Neural ODE 上更精准。

六、总结：从“模型层”到“算子层”的进化

伴随灵敏度算法不仅是一个数学技巧，它代表了 AI 开发的一种新思维：我们将计算逻辑从离散的、显式的加乘运算，抽象成了连续的、隐式的微分方程求解。

通过伴随方法，液态神经网络（LNN）终于可以大规模处理长序列任务（如长达数小时的心电图监测、复杂的工业传感器流、长周期的气象预报），而无需担心昂贵的显存成本。

下一篇预告：

《系列（六） | 数值求解器全景图：euler、rk4、 dopri5、自适应步长怎么选？》 —— 我们将深入对比不同求解器的收敛特性，教你如何为你的液态模型匹配最强的动力“变速箱”。

液态神经网络系列（五） | 梯度传播与连续系统：伴随灵敏度算法（Adjoint Method）实战

Ne0inhk