摘要
虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。
为了应对这些挑战,我们提出了一种用于频率感知多模态推荐的结构化谱推理(SSR)框架。我们的方法遵循四阶段流程:
- 通过图引导的变换将基于图的多模态信号分解为频带以隔离语义粒度;
- 通过频带掩蔽来调制频带级可靠性,这是一种具有预测一致性目标的训练时掩蔽,可抑制脆性频率分量;
- 使用高光谱推理与低阶跨频带交互融合互补频率线索;
- 通过对比正则化对齐特定模态的光谱特征,以促进语义和结构的一致性。
引言
多模态推荐把协同交互与图像/文本一起用时,模态噪声、语义错位和冗余会沿用户–物品图传播被放大,导致表示不稳、冷启动效果差。现有空间域融合和许多频域滤波方法多是'拼接/静态重加权',缺少频带级自适应调制与跨频带结构化推理来区分'信息频带'和'噪声频带'。
为了应对这些挑战,我们提出了用于频率感知多模态图推荐的结构化谱推理(Structured Spectral Reasoning, SSR)。SSR 采用一个四阶段流程,在共享的频谱坐标系中对信号进行分解、调制、融合与对齐。基于这样的观察:频率映射能够揭示按频带划分的结构,从而同时捕捉协同语义与模态特有细节,我们将学习过程组织为围绕频带级操作与监督展开。不同于把频带当作静态特征或仅做轻度重加权,SSR 先把输入转换为频谱表示,再对其信息量与稳定性进行推理。
我们引入频带掩蔽(Spectral Band Masking, SBM):一种训练阶段的频带级扰动,并配合预测一致性目标,以降低对脆弱频带的依赖并提升性能保持度。我们还设计了与图结构兼容的超光谱算子(G-HSNO),通过紧凑的低秩参数化来建模跨频带与跨模态的依赖关系。此外,一个频谱对比目标在不增加推理开销的情况下,促进频带级跨模态一致性。总体而言,这些组件共同构成了一种连贯且高效的多模态图结构化频谱建模方法。
方法
图 1:我们提出的框架的总体架构。该模型遵循结构化的四阶段流程:(i)分解执行特定于模态的图小波变换以解开多频率分量;(ii) 调制应用频谱带掩蔽 (SBM),以任务自适应方式扰动和降低不可靠频带的权重;(iii) Fusion 利用低阶图超谱神经算子 (G-HSNO) 来推理跨频带和跨模式依赖关系;(iv) 对齐引入谱对比正则化 (SCR),以加强跨模态的语义一致性和谱鲁棒性。
1. 输入与分解
系统有三种物品信息:ID 特征、图像特征、文本特征。作者先在用户–物品图上用 GCN/LightGCN 这类传播,得到每种模态各自的'协同表示'(也就是:带上了交互关系的表示)。
Decomposition:先把信号按'频率'拆成三段(低/中/高频)。你可以把'频率'理解成这个信号在图上变化得快不快。低频:变化慢、更平滑,通常更像'稳定的总体偏好/大众趋势'。高频:变化快、更尖锐,通常更像'细节差异',但也更可能是噪声。
所以作者把每个模态的图信号做一次谱/小波变换,然后切成 Spectral Band1/2/3,对应低/中/高频三份子信号。
2. 调制与掩蔽
Modulation:用 SBM 训练时'随机遮掉某些频带',逼模型别走偏。
这一步的核心是 Spectral Band Masking (SBM)。做法很像数据增强,但增强对象不是像素或词,而是整段频带:训练时随机把某些频带置零(mask),得到一个'被扰动的频谱视图'。同时保留原来的全频输入。然后加一个一致性损失:要求原输入的预测和 mask 后的预测尽量一致。
$$ L_{SBM} = \mathbb{E}|f(x)-f(\tilde x)|^2 $$
直觉很简单:如果模型只依赖某个'脆弱频带'(比如高频噪声),一 mask 它预测就崩;一致性约束会逼模型学到更稳的证据组合。
3. 融合与推理
Fusion:用 G-HSNO 做'跨频带 + 跨模态'的结构化推理。
前面你把每个模态都拆成了多个频带。接下来要解决两件事:频带之间怎么互相影响(低频和高频不是孤立的),模态之间怎么互相补充(图像/文本/ID 怎么合到一起)。
作者用一个叫 Graph HyperSpectral Neural Operator (G-HSNO) 的模块来做这件事。你可以把它想成:对每个频带 m,它会从所有其他频带 n'取信息'并加权汇总,得到新的 z(m)。
公式表示为: $$ z^{(m)}=\sum_{n=1}^{M} K_{mn}x^{(n)} $$
区别在于:$K_{mn}$ 不是随便学的一个大矩阵,而是用低秩(CP 分解)把参数压缩,避免太贵。

