【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

用于频率自适应多模态推荐的结构化谱推理

摘要

虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。

为了应对这些挑战,我们提出了一种用于频率感知多模态推荐的结构化谱推理(SSR)框架。

我们的方法遵循四阶段流程:

(i)通过图引导的变换将基于图的多模态信号分解为频带以隔离语义粒度;

(ii) 通过频带掩蔽来调制频带级可靠性,这是一种具有预测一致性目标的训练时掩蔽,可抑制脆性频率分量;

(iii) 使用高光谱推理与低阶跨频带交互融合互补频率线索;

(iv)通过对比正则化对齐特定模态的光谱特征,以促进语义和结构的一致性。

引言

多模态推荐把协同交互与图像/文本一起用时,模态噪声、语义错位和冗余会沿用户–物品图传播被放大,导致表示不稳、冷启动效果差。现有空间域融合和许多频域滤波方法多是“拼接/静态重加权”,缺少频带级自适应调制与跨频带结构化推理来区分“信息频带”和“噪声频带”。

为了应对这些挑战,我们提出了用于频率感知多模态图推荐的结构化谱推理(SSR)。 SSR 采用四级管道,在共享频谱坐标系内分解、调制、融合和对齐信号。

为应对这些挑战,我们提出用于频率感知的多模态图推荐的结构化频谱推理(Structured Spectral Reasoning, SSR)。SSR 采用一个四阶段流程,在共享的频谱坐标系中对信号进行分解、调制、融合与对齐。基于这样的观察:频率映射能够揭示按频带划分的结构,从而同时捕捉协同语义与模态特有细节,我们将学习过程组织为围绕频带级操作与监督展开。不同于把频带当作静态特征或仅做轻度重加权,SSR 先把输入转换为频谱表示,再对其信息量与稳定性进行推理。

我们引入频带掩蔽(Spectral Band Masking, SBM):一种训练阶段的频带级扰动,并配合预测一致性目标,以降低对脆弱频带的依赖并提升性能保持度。我们还设计了与图结构兼容的超光谱算子(G-HSNO),通过紧凑的低秩参数化来建模跨频带与跨模态的依赖关系。此外,一个频谱对比目标在不增加推理开销的情况下,促进频带级跨模态一致性。总体而言,这些组件共同构成了一种连贯且高效的多模态图结构化频谱建模方法。

方法

在这里插入图片描述
图 1:我们提出的框架的总体架构。该模型遵循结构化的四阶段流程:(i)分解执行特定于模态的图小波变换以解开多频率分量; (ii) 调制应用频谱带掩蔽 (SBM),以任务自适应方式扰动和降低不可靠频带的权重; (iii) Fusion 利用低阶图超谱神经算子 (G-HSNO) 来推理跨频带和跨模式依赖关系; (iv) 对齐引入谱对比正则化 (SCR),以加强跨模态的语义一致性和谱鲁棒性。
0)输入是什么?(左侧)

系统有三种物品信息:ID 特征、图像特征、文本特征
作者先在用户–物品图上用 GCN/LightGCN 这类传播,得到每种模态各自的“协同表示”(也就是:带上了交互关系的表示)。1)Decomposition:先把信号按“频率”拆成三段(低/中/高频)

你可以把“频率”理解成:这个信号在图上变化得快不快低频:变化慢、更平滑,通常更像“稳定的总体偏好/大众趋势”。高频:变化快、更尖锐,通常更像“细节差异”,但也更可能是噪声。

所以作者把每个模态的图信号做一次谱/小波变换,然后切成 Spectral Band1/2/3,对应低/中/高频三份子信号。2)Modulation:用 SBM 训练时“随机遮掉某些频带”,逼模型别走偏

这一步的核心是 Spectral Band Masking (SBM)
做法很像数据增强,但增强对象不是像素或词,而是整段频带:训练时随机把某些频带置零(mask),得到一个“被扰动的频谱视图”。同时保留原来的全频输入。然后加一个一致性损失:要求 原输入的预测mask 后的预测 尽量一致(图里写的 L S B M = E ∥ f ( x ) − f ( x ~ ) ∥ 2 L_{SBM} = \mathbb{E}\|f(x)-f(\tilde x)\|^2 LSBM​=E∥f(x)−f(x~)∥2)。

直觉很简单:
如果模型只依赖某个“脆弱频带”(比如高频噪声),一 mask 它预测就崩;一致性约束会逼模型学到更稳的证据组合。3)Fusion:用 G-HSNO 做“跨频带 + 跨模态”的结构化推理

前面你把每个模态都拆成了多个频带。接下来要解决两件事:频带之间怎么互相影响(低频和高频不是孤立的)。模态之间怎么互相补充(图像/文本/ID 怎么合到一起)。

作者用一个叫 Graph HyperSpectral Neural Operator (G-HSNO) 的模块来做这件事。
你可以把它想成:对每个频带 m m m,它会从所有其他频带 n n n“取信息”并加权汇总,得到新的 z ( m ) z^{(m)} z(m)。

图里那句就是:
z ( m ) = ∑ n = 1 M K m n x ( n ) z^{(m)}=\sum_{n=1}^{M} K_{mn}x^{(n)} z(m)=n=1∑M​Kmn​x(n)
区别在于: K m n K_{mn} Kmn​ 不是随便学的一个大矩阵,而是用 **低秩(CP 分解)**把参数压缩,避免太贵。

结果就是得到一个按频带组织的多模态表示(band-wise multimodal representation),同时它已经把“频带交互、模态交互、图结构”都考虑进去了。4)Alignment:用对比学习让不同模态在同一频带里“语义对齐”

最后作者加了 Spectral Contrastive Regularization (SCR)
你可以理解成:在同一个频带里,图像表示、文本表示、ID 表示应该表达“同层次”的语义。所以用 InfoNCE 做对比学习:把“同一物品同一频带的不同模态”拉近,把不匹配的拉远。它只在训练里起作用,推理时不额外增加开销(图里也强调了这一点)。5)预测与总损失(右上角)

预测就是用户向量和物品向量做内积再过 sigmoid: y ^ u v = σ ( z u ⊤ z v ) \hat y_{uv}=\sigma(z_u^\top z_v) y^​uv​=σ(zu⊤​zv​)。
总损失是三项加权和:L B C E L_{BCE} LBCE​:推荐的主任务损失L S B M L_{SBM} LSBM​:mask 频带后的预测一致性L S C R L_{SCR} LSCR​:跨模态的频带级对比对齐

$$
L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR}
荐的主任务损失L S B M L_{SBM} LSBM​:mask 频带后的预测一致性L S C R L_{SCR} LSCR​:跨模态的频带级对比对齐

L = L B C E + λ L S B M + η L S C R L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR} L=LBCE​+λLSBM​+ηLSCR​

Read more

无需任何拓展Copilot接入第三方OpenAI接口教程

禁止搬运,转载需标明本文链接 省流:修改"C:\Users\你的用户名称\.vscode\extensions\github.copilot-chat-0.35.0\package.json"中的"when": "productQualityType != 'stable'"为"when": "productQualityType == 'stable'",即可在copilot添加支持openAI的第三方接口 我在寻找怎么让copilot接入第三方接口的时候,通过别人的贴子(长期有效)接入第三方 OpenAI 兼容模型到 GitHub Copilot-ZEEKLOG博客发现了官方的讨论Add custom OpenAI endpoint configuration

TRAE vs Qoder vs Cursor vs GitHub Copilot:谁才是真正的“AI 工程师”?

引言:工具选择 = 成本 + 效率 + 风险 的综合权衡 2026 年,AI 编程工具已从“玩具”走向“生产主力”。但面对 TRAE、Qoder、Cursor、GitHub Copilot 等选项,开发者不仅要问: * 它能写 Rust 吗?支持中文需求吗? * 更要问:一个月多少钱?团队用得起吗?代码安全有保障吗? 本文将从 五大核心维度 深度剖析四大主流 AI IDE: 1. 核心理念与自主性 2. 多语言与跨生态支持能力 3. 工程化与交付闭环能力 4. 中文本地化与业务适配 5. 收费模式、定价策略与企业成本 帮你做出技术可行、经济合理、风险可控的决策。 一、核心理念:

IntelliJ IDEA中GitHub Copilot完整使用教程:从安装到实战技巧

IntelliJ IDEA中GitHub Copilot完整使用教程:从安装到实战技巧

IntelliJ IDEA 中 AI 工具 Codex (GitHub Copilot) 完整使用教程 在 IntelliJ IDEA 中,Codex 的能力主要通过 GitHub Copilot 插件体现。它是目前最强大的 AI 编程助手,能够基于 OpenAI Codex 模型提供实时代码建议、业务逻辑实现以及复杂的重构支持。 一、 安装与环境配置 1. 插件安装 1. 打开 IntelliJ IDEA,进入设置:File -> Settings (Windows) 或 IntelliJ IDEA -> Settings (Mac)。 2. 在左侧菜单选择 Plugins,

AI绘画提示词工程:从基础原理到高效实践

快速体验 在开始今天关于 AI绘画提示词工程:从基础原理到高效实践 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 AI绘画提示词工程:从基础原理到高效实践 背景:提示词的重要性与当前痛点 AI绘画模型如Stable Diffusion已经让图像生成变得触手可及,但很多开发者发现,同样的模型在不同提示词下表现差异巨大。常见问题包括: * 语义歧义:模型对抽象词汇理解不一致,比如&