时空反向传播 (STBP) 算法

时空反向传播 (STBP) 算法深度解析

1. 核心挑战:SNN 为什么难训练?

传统的深度学习(ANN)使用反向传播(BP)算法,依赖链式法则计算梯度。SNN 想要使用 BP,面临一个数学上的“死胡同”:

  • 脉冲的不可导性: SNN 中的神经元发放脉冲是一个二值的阶跃函数(Step Function)。
  • 梯度消失或爆炸: 阶跃函数的导数在阈值处是无穷大(狄拉克 δ\deltaδ 函数),在其他地方是 0。这意味着梯度要么无法传播,要么爆炸,导致网络无法通过标准的梯度下降来更新权重。

Output=1Output = 1Output=1 if u>Vthu > V_{th}u>Vth​ else 000

STBP 的解决思路: 将 SNN 在时间维度上展开,将其视为一个特殊的循环神经网络(RNN),并在反向传播时引入代理梯度(Surrogate Gradient)

2. STBP 的“时空”含义

STBP 的精髓在于它同时在两个维度上计算梯度的传播:

  1. 空间维度 (Spatial Domain):
    • 就像传统的 CNN/MLP 一样,误差从输出层向输入层,逐层(Layer-by-Layer)反向传播。
    • 这解决了“如何调整权重以提取特征”的问题。
  2. 时间维度 (Temporal Domain):
    • 由于 LIF 神经元有膜电位泄漏(Leakage)和累积特性,当前时刻的状态依赖于上一时刻。误差需要从 ttt 时刻向 t−1t-1t−1 时刻传播。
    • 这解决了“如何利用历史信息”的问题。

3. 算法数学推导 (结合 Paper 1)

A. 前向传播 (LIF 动力学)

在离散时间步 ttt,LIF 神经元 iii 的行为被建模为:

  1. 膜电位更新:uit=uit−1⋅τdecay+xit+biu_i^t = u_i^{t-1} \cdot \tau_{decay} + x_i^t + b_iuit​=uit−1​⋅τdecay​+xit​+bi​ (若上一步未发放脉冲)
  2. 脉冲发放:sit=g(uit−Vth)s_i^t = g(u_i^t - V_{th})sit​=g(uit​−Vth​),其中 g(x)g(x)g(x) 是海维赛德阶跃函数。

预突触输入:xit=∑jwijsjt−1x_i^t = \sum_j w_{ij} s_j^{t-1}xit​=∑j​wij​sjt−1​

B. 反向传播 (链式法则)

我们要计算损失函数 LLL 对权重 WWW 的梯度 ∂L∂W\frac{\partial L}{\partial W}∂W∂L​。根据链式法则,总梯度是空间梯度和时间梯度的总和。

∂L∂uit=∂L∂sit∂sit∂uit⏟空间传播+∂L∂uit+1∂uit+1∂uit⏟时间传播\frac{\partial L}{\partial u_i^t} = \underbrace{\frac{\partial L}{\partial s_i^t} \frac{\partial s_i^t}{\partial u_i^t}}_{\text{空间传播}} + \underbrace{\frac{\partial L}{\partial u_i^{t+1}} \frac{\partial u_i^{t+1}}{\partial u_i^t}}_{\text{时间传播}}∂uit​∂L​=空间传播∂sit​∂L​∂uit​∂sit​​​​+时间传播∂uit+1​∂L​∂uit​∂uit+1​​​​

这里有两个关键项:

  1. 时间依赖项∂uit+1∂uit\frac{\partial u_i^{t+1}}{\partial u_i^t}∂uit​∂uit+1​​:这对应于神经元的泄漏因子(decay factor)。∂uit+1∂uit≈τdecay (忽略复位影响的简化)\frac{\partial u_i^{t+1}}{\partial u_i^t} \approx \tau_{decay} \text{ (忽略复位影响的简化)}∂uit​∂uit+1​​≈τdecay​ (忽略复位影响的简化)
  2. 脉冲导数项∂sit∂uit\frac{\partial s_i^t}{\partial u_i^t}∂uit​∂sit​​(Crucial!):这是 sss 对 uuu 求导。由于 sss 是阶跃函数,直接求导不可行。STBP 在这里引入了“代理梯度”

C. 代理梯度 (Surrogate Gradient)

前向传播时,仍然使用阶跃函数以保持 SNN 的二值特性;但在反向传播计算梯度时,使用一个平滑的可导函数 h(u)h(u)h(u) 来近似阶跃函数。

Paper 1 中选择的代理梯度函数是一个类高斯函数(类似于概率密度函数):

h(u)=12πe−(u−Vth)2h(u) = \frac{1}{\sqrt{2\pi}} e^{-(u - V_{th})^2}h(u)=2π​1​e−(u−Vth​)2

  • 这意味着:当膜电位 uuu 接近阈值 VthV_{th}Vth​ 时,我们认为它“很有可能”发放脉冲,因此给予较大的梯度;当 uuu 远离阈值时,梯度衰减。这使得梯度可以顺滑地传回网络。

4. Paper 1 的改进:硬件感知 STBP

Paper 1 并没有止步于标准的 STBP,而是针对 低功耗 ASIC 设计 修改了损失函数,使其训练出的网络天生适合硬件。

损失函数设计

Losstotal=LossMSE+λsLossRate+λwLossWeightLoss_{total} = Loss_{MSE} + \lambda_s Loss_{Rate} + \lambda_w Loss_{Weight}Losstotal​=LossMSE​+λs​LossRate​+λw​LossWeight​

  1. LossMSELoss_{MSE}LossMSE​(准确率项):传统的分类误差(均方误差),让网络输出正确的分类。
  2. LossRateLoss_{Rate}LossRate​(发放率正则化项):λs∑∑∣∣sit∣∣22\lambda_s \sum \sum ||s_i^t||_2^2λs​∑∑∣∣sit​∣∣22​
    • 目的: 惩罚脉冲的发放。
    • 硬件意义: 芯片采用了“脉冲驱动(Spike-Driven)”架构,功耗与脉冲数量成正比。强制网络变得稀疏(Firing Rate 从 25% 压到 15%),直接降低了芯片的动态功耗。
  3. LossWeightLoss_{Weight}LossWeight​(权重正则化项):λw∑∣∣w∣∣1\lambda_w \sum ||w||_1λw​∑∣∣w∣∣1​
    • 目的: L1 正则化,使权重趋向于 0。
    • 硬件意义: 配合剪枝(Pruning),将接近 0 的权重直接移除。这减少了存储需求(SRAM),并允许使用稀疏存储格式。

5. 算法流程图解

graph TD subgraph Time_Step_t ["时间步 t"] Pre_Spike_t(输入脉冲 S_in) -->|x W| Mem_Pot_t(膜电位 u_t) Mem_Pot_t -->|Step Function| Spike_Out_t(输出脉冲 S_out) end subgraph Time_Step_t_plus_1 ["时间步 t+1"] Mem_Pot_t -.->|Leakage| Mem_Pot_t1(膜电位 u_t+1) end subgraph Backpropagation ["反向传播 (STBP)"] Err_Out(输出误差) -->|空间梯度| Grad_S_t(dS/du) Grad_S_t --"代理梯度 h(u)"--> Grad_U_t(du) Err_Next(t+1时刻误差) -->|时间梯度| Grad_U_t end 

6. 总结

STBP 算法通过引入时间维度的展开代理梯度近似,打通了 SNN 训练的数学链路。

在 Paper 1 中,该算法不仅仅是为了训练一个能用的网络,更是通过修改损失函数,充当了硬件/算法协同设计 (Co-design) 的桥梁:它“逼迫”神经网络学出一种稀疏的、低发放率的、权重简单的形态,从而完美契合其 ASIC 芯片的低功耗特性。

Read more

【C++】如何快速实现一棵支持key或key-value的二叉搜索树?关键技巧一文掌握!

【C++】如何快速实现一棵支持key或key-value的二叉搜索树?关键技巧一文掌握!

🎬 个人主页:MSTcheng · ZEEKLOG 🌱 代码仓库 :MSTcheng · Gitee 🔥 精选专栏: 《C语言》 《数据结构》 《C++由浅入深》 💬座右铭:路虽远行则将至,事虽难做则必成! 前言:在前面的文章中我们向大家介绍了一些序列式容器,比如:basic_string、vector、deque、list等。而本篇文章我们将要进入树形容器——二叉搜索树的学习。 文章目录 * 一、二叉搜索树的认识 * 1.1二叉搜索树的概念 * 1.2二叉搜索树的性能分析 * 二、二叉搜索树的实现 * 2.1二叉搜索树的整体框架 * 2.2二叉搜索树的插入 * 2.3二叉搜索树的查找 * 2.4二叉树的删除 * 三、二叉搜索树key和value的使用场景 * 四、总结 一、二叉搜索树的认识 1.1二叉搜索树的概念 二叉搜索树(

By Ne0inhk
【C++】C++11的包装器:function与bind简介

【C++】C++11的包装器:function与bind简介

各位大佬好,我是落羽!一个坚持不断学习进步的学生。 如果您觉得我的文章还不错,欢迎多多互三分享交流,一起学习进步! 也欢迎关注我的blog主页:落羽的落羽 文章目录 * 一、function * 1. 概念 * 2. 用法 * 二、bind * 1. 概念 * 2. 用法 一、function 1. 概念 上一篇文章我们学习了lambda表达式的用法。 std::function是 C++11 标准库在 <functional> 头文件中引入的一个通用、多态的函数包装器。它的本质是一个类模板,可以包装、存储、复制和调用任何可调用对象(函数指针、仿函数、lambda表达式、bind表达式等),存储的可调用对象被称为function的目标。function不含目标则为空,调用空function的目标会抛异常。 函数指针、仿函数、lambda表达式等可调用对象的类型各不相同,

By Ne0inhk
C++备忘录模式:优雅实现对象状态保存与恢复

C++备忘录模式:优雅实现对象状态保存与恢复

C++备忘录模式:优雅实现对象状态保存与恢复 * 引言 * 备忘录模式概述 * 核心角色解析 * 1. Originator(发起人) * 2. Memento(备忘录) * 3. Caretaker(管理者) * 设计原则体现 * C++实现示例 * 典型应用场景 * 高级特性与优化 * 1. 增量备忘录 * 2. 序列化支持 * 3. 线程安全考虑 * 与其他模式的协作 * 注意事项 * 总结 引言 在软件开发中,我们经常需要实现撤销操作、历史记录或状态回滚等功能。备忘录模式(Memento Pattern)正是为解决这类问题而生的设计模式。本文将深入探讨备忘录模式在C++中的实现与应用,帮助开发者掌握这一强大的设计工具。 备忘录模式概述 备忘录模式是一种行为设计模式,它允许在不破坏封装性的前提下捕获并外部化一个对象的内部状态,以便以后可以将该对象恢复到原先保存的状态【1†source】。该模式特别适合需要实现撤销操作、历史记录或快照功能的场景【1†source】

By Ne0inhk

2025年第十六届蓝桥杯大赛软件赛C/C++大学B组题解

第十六届蓝桥杯大赛软件赛C/C++大学B组题解 目录 * 第十六届蓝桥杯大赛软件赛C/C++大学B组题解 * 试题A: 移动距离 * 问题描述 * 解题思路 * 答案 * 试题B: 客流量上限 * 问题描述 * 解题思路 * 代码实现 * 答案: * [试题C: 可分解的正整数](https://www.dotcpp.com/oj/problem3319.html) * 问题描述 * 解题思路 * 代码实现 * [试题D: 产值调整](https://www.dotcpp.com/oj/problem3320.html) * 问题描述 * 解题思路 * 代码实现 * 答案 * [试题E: 画展布置](https://www.dotcpp.com/oj/

By Ne0inhk