结构化谱推理：频率自适应多模态推荐方法解读

针对多模态推荐中的模态噪声与语义错位问题，提出结构化谱推理（SSR）框架。通过频带分解、掩蔽调制、超谱融合及对比对齐四阶段流程，实现频谱级自适应建模。引入频带掩蔽（SBM）增强鲁棒性，利用低秩参数化降低计算开销，并在训练时促进跨模态一致性，有效提升了冷启动场景下的表示稳定性与推荐性能。

活在当下发布于 2026/4/5更新于 2026/7/2345 浏览

论文解读 | 结构化谱推理 (SSR)

背景与动机

在多模态推荐系统中，协同交互信号常与图像、文本等辅助信息混合。这种融合虽然丰富了特征空间，但也引入了模态噪声、语义错位和冗余。这些干扰会沿着用户–物品图传播被放大，导致表示不稳定，尤其在冷启动场景下效果显著。

现有的空间域融合或频域滤波方法，大多采用'拼接'或'静态重加权'策略。它们缺乏对频带级自适应调制的能力，无法有效区分哪些是承载信息的'频带'，哪些是纯粹的'噪声频带'。

针对上述挑战，我们提出了一种用于频率感知的多模态图推荐的**结构化谱推理（Structured Spectral Reasoning, SSR）**框架。不同于将频带视为静态特征，SSR 在共享的频谱坐标系内，对信号进行分解、调制、融合与对齐，通过频带级操作与监督来组织学习过程。

核心架构

图 1：框架架构

模型遵循结构化的四阶段流程，旨在揭示按频带划分的结构，同时捕捉协同语义与模态特有细节。

1. 分解 (Decomposition)

首先，系统接收三种物品信息：ID 特征、图像特征、文本特征。我们在用户–物品图上利用 GCN 或 LightGCN 进行消息传递，得到每种模态各自的'协同表示'（即融合了交互关系的表示）。

接下来是关键的一步：将信号按'频率'拆分成多个子信号。你可以把图中的'频率'理解为信号变化的快慢程度：

低频：变化平滑，通常对应稳定的总体偏好或大众趋势。
高频：变化尖锐，往往包含细节差异，但也更容易混杂噪声。

作者对每个模态的图信号执行图小波变换（Graph Wavelet Transform），将其切分为 Spectral Band 1/2/3，分别对应低、中、高频三份子信号。这一步实现了语义粒度的隔离。

2. 调制 (Modulation)

为了提升模型的鲁棒性，我们引入频带掩蔽（Spectral Band Masking, SBM）。这是一种训练阶段的频带级扰动机制。

做法类似于数据增强，但增强对象不是像素或词，而是整段频带。在训练时，随机将某些频带置零（mask），得到一个'被扰动的频谱视图'，同时保留原始全频输入。随后施加一致性损失，要求原输入的预测与 mask 后的预测尽量一致。

直觉上很简单：如果模型过度依赖某个'脆弱频带'（例如高频噪声），一旦该频带被 mask，预测就会崩塌。一致性约束会迫使模型学会更稳健的证据组合，降低对特定频带的依赖。

3. 融合 (Fusion)

前两步处理了单个模态内部的频带结构，接下来需要解决两个问题：频带之间如何互相影响（低频与高频并非孤立），以及模态之间如何互补（图像、文本、ID 如何结合）。

为此，我们设计了图超谱神经算子（Graph HyperSpectral Neural Operator, G-HSNO）。可以将其理解为：对于每个频带 $m$，它会从所有其他频带 $n$ '取信息'并加权汇总，得到新的表示 $z^{(m)}$。

$$ z^{(m)} = \sum_{n=1}^{M} K_{mn} x^{(n)} $$

关键在于，$K_{mn}$ 并非随意学习的大矩阵，而是通过**低秩（CP 分解）**进行参数压缩，避免计算开销过大。最终得到一个按频带组织的多模态表示，同时已隐含了频带交互、模态交互及图结构的依赖关系。

4. 对齐 (Alignment)

最后一步是确保不同模态在同一频带内表达'同层次'的语义。我们引入谱对比正则化（Spectral Contrastive Regularization, SCR）。

这本质上是一种 InfoNCE 对比学习：将同一物品、同一频带的不同模态表示拉近，将不匹配的拉远。该模块仅在训练时起作用，推理时不会增加额外开销，有效促进了频带级的跨模态一致性与谱鲁棒性。

优化目标

预测阶段，用户向量与物品向量做内积后经过 sigmoid 函数输出概率：

$$ \hat y_{uv} = \sigma(z_u^\top z_v) $$

结构化谱推理：频率自适应多模态推荐方法解读

论文解读 | 结构化谱推理 (SSR)

背景与动机

核心架构

1. 分解 (Decomposition)

2. 调制 (Modulation)

3. 融合 (Fusion)

4. 对齐 (Alignment)

优化目标

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

结构化谱推理：频率自适应多模态推荐方法解读

论文解读 | 结构化谱推理 (SSR)

背景与动机

核心架构

1. 分解 (Decomposition)

2. 调制 (Modulation)

3. 融合 (Fusion)

4. 对齐 (Alignment)

优化目标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具