STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks
代码:https://github.com/GuoLab-UESTC/SCTFA-SNN

一、研究背景
二、现有方法局限
训练方式
• ANN→SNN 转换:需 64–256 时间步补偿量化误差,延迟高,且无法利用脉冲动态。
• 无监督(STDP/Hebb):难以做深层端到端优化。
• 有监督 BPTT+替代梯度:梯度消失、膜电位震荡、易陷局部最优。
注意力尝试
• TA-SNN、MA-SNN、TCJA-SNN 等仅把“通道-空间-时间”拆成独立模块,未在单个神经元层内同时完成时空耦合;
• 无位置编码,时间顺序信息靠 RNN 式递归隐式携带,深度增加后衰减严重;
• 未解决“多步特征固化”——越深时间步越易早熟,导致网络停止更新。
三、本文创新点
四、方法论细节
自适应 LIF
将原来固定泄漏系数 1/τ、重置电位 Vreset 改成可学习矩阵 M、N,让每层兴奋/抑制强度可自动调节。
GC 块(空间自注意)
输入 Xt,n∈RC×H×W → 1×1 卷积生成 K/Q/V → 通过 Sigmoid+LN+ReLU 得到权重 Wv∈RC×1×1 → 与原特征残差相加,实现“脉冲-驱动”的自注意。
PE 块
生成可学习向量 Post,n∈RC,在时间轴上与输入 It,n 相加,使网络知道“当前是第几步”。
SA 块(步注意)
对每步特征 Ut,n 先 AvgPool 压缩→Conv1→ReLU→Conv2→Sigmoid 得到步权重,与 Ut,n 逐像素相乘,实现“哪一步更重要”的自适应加权。
STAA-LIF 前向公式
Ut,n = GC1(Xt,n) ⊕ GC2(Ht-1,n) // 空间聚合
Vt,n = SA(Ut,n) // 时间加权
再代入标准 LIF 更新膜电位与脉冲。
TSRD
训练阶段以 β=0.1 概率把 GC/PE/SA 全部旁路,只做简单相加;推理阶段全部打开。类似 Dropout,但作用于“模块级”而非“神经元级”。
五、实验设置
数据集:CIFAR-10/100、ImageNet(静态);CIFAR10-DVS、DVS128Gesture(事件相机)。
架构:ResNet-18/19/20/34、VGG-13,时间步 T=1/2/4/16。
基线:GLIF、TET、LSG、PFA、MPBN、IM-Loss、Spikformer 等 20 余条 SOTA。
硬件:单卡 RTX 3090(ImageNet 用 8×4090),PyTorch 实现。
六、结果
静态图像
• CIFAR-10:ResNet-19 + T=4 达 97.14%(↑0.42% 超 MPBN),且 T=1 即可 96.75%,比同量级方法少用 1–3 个时间步。
• CIFAR-100:ResNet-19 + T=4 达 82.05%(↑1.95% 超 MPBN)。
• ImageNet:ResNet-34 + T=4 达 70.40%(↑2.71% 超 SEW-ResNet)。
事件相机
• CIFAR10-DVS:VGG-13 + T=16 达 82.10%(↑1.2% 超 Spikeformer)。
• DVS128Gesture:VGG-13 + T=16 达 98.61%,与 LIAF+TA 持平但时间步减少 44%。
消融实验(CIFAR-100, T=4)
Baseline
→ +GC +0.92%
→ +PE +0.57%
→ +SA +0.82%
→ +TSRD +0.32%,累计提升 2.80%。
最佳 dropout 概率 β=0.1;GC 压缩系数 r=4 可在参数量↓4× 的同时保持精度。
可视化
Grad-CAM 显示 STAA-LIF 在 CIFAR10-DVS 马样本上聚焦马头、马嘴等判别区域,而 Vanilla LIF 仅粗略轮廓。
能耗
ResNet-20 在 CIFAR-100 上单张 32×32、T=4 仅 0.366 mJ,约为同精度 ANN 的 1/5。
七、意义与展望
• 将 GC 块进一步稀疏化,用事件驱动卷积核减少计算量;
• 把 TSRD 与动态时间步自适应结合,实现“训练-推理时间步不一致”的极致压缩;
• 在更具挑战的检测、分割、多模态任务上验证泛化能力;
• 与 neuromorphic 芯片(Loihi、TrueNorth)联合部署,实测毫瓦级功耗下的精度-延迟权衡。
网硕互联帮助中心







评论前必须登录!
注册