论文解读 | 结构化谱推理 (SSR)
背景与动机
在多模态推荐系统中,协同交互信号常与图像、文本等辅助信息混合。这种融合虽然丰富了特征空间,但也引入了模态噪声、语义错位和冗余。这些干扰会沿着用户–物品图传播被放大,导致表示不稳定,尤其在冷启动场景下效果显著。
现有的空间域融合或频域滤波方法,大多采用'拼接'或'静态重加权'策略。它们缺乏对频带级自适应调制的能力,无法有效区分哪些是承载信息的'频带',哪些是纯粹的'噪声频带'。
针对上述挑战,我们提出了一种用于频率感知的多模态图推荐的**结构化谱推理(Structured Spectral Reasoning, SSR)**框架。不同于将频带视为静态特征,SSR 在共享的频谱坐标系内,对信号进行分解、调制、融合与对齐,通过频带级操作与监督来组织学习过程。
核心架构
模型遵循结构化的四阶段流程,旨在揭示按频带划分的结构,同时捕捉协同语义与模态特有细节。
1. 分解 (Decomposition)
首先,系统接收三种物品信息:ID 特征、图像特征、文本特征。我们在用户–物品图上利用 GCN 或 LightGCN 进行消息传递,得到每种模态各自的'协同表示'(即融合了交互关系的表示)。
接下来是关键的一步:将信号按'频率'拆分成多个子信号。你可以把图中的'频率'理解为信号变化的快慢程度:
- 低频:变化平滑,通常对应稳定的总体偏好或大众趋势。
- 高频:变化尖锐,往往包含细节差异,但也更容易混杂噪声。
作者对每个模态的图信号执行图小波变换(Graph Wavelet Transform),将其切分为 Spectral Band 1/2/3,分别对应低、中、高频三份子信号。这一步实现了语义粒度的隔离。
2. 调制 (Modulation)
为了提升模型的鲁棒性,我们引入频带掩蔽(Spectral Band Masking, SBM)。这是一种训练阶段的频带级扰动机制。
做法类似于数据增强,但增强对象不是像素或词,而是整段频带。在训练时,随机将某些频带置零(mask),得到一个'被扰动的频谱视图',同时保留原始全频输入。随后施加一致性损失,要求原输入的预测与 mask 后的预测尽量一致。
直觉上很简单:如果模型过度依赖某个'脆弱频带'(例如高频噪声),一旦该频带被 mask,预测就会崩塌。一致性约束会迫使模型学会更稳健的证据组合,降低对特定频带的依赖。
3. 融合 (Fusion)
前两步处理了单个模态内部的频带结构,接下来需要解决两个问题:频带之间如何互相影响(低频与高频并非孤立),以及模态之间如何互补(图像、文本、ID 如何结合)。
为此,我们设计了图超谱神经算子(Graph HyperSpectral Neural Operator, G-HSNO)。可以将其理解为:对于每个频带 $m$,它会从所有其他频带 $n$ '取信息'并加权汇总,得到新的表示 $z^{(m)}$。
$$ z^{(m)} = \sum_{n=1}^{M} K_{mn} x^{(n)} $$
关键在于,$K_{mn}$ 并非随意学习的大矩阵,而是通过**低秩(CP 分解)**进行参数压缩,避免计算开销过大。最终得到一个按频带组织的多模态表示,同时已隐含了频带交互、模态交互及图结构的依赖关系。
4. 对齐 (Alignment)
最后一步是确保不同模态在同一频带内表达'同层次'的语义。我们引入谱对比正则化(Spectral Contrastive Regularization, SCR)。
这本质上是一种 InfoNCE 对比学习:将同一物品、同一频带的不同模态表示拉近,将不匹配的拉远。该模块仅在训练时起作用,推理时不会增加额外开销,有效促进了频带级的跨模态一致性与谱鲁棒性。
优化目标
预测阶段,用户向量与物品向量做内积后经过 sigmoid 函数输出概率:
$$ \hat y_{uv} = \sigma(z_u^\top z_v) $$
总损失函数由三项加权和构成:
$$ L = L_{BCE} + \lambda L_{SBM} + \eta L_{SCR} $$

