跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

结构化谱推理:频率自适应多模态推荐方法解读

综述由AI生成针对多模态推荐中的模态噪声与语义错位问题,提出结构化谱推理(SSR)框架。通过频带分解、掩蔽调制、超谱融合及对比对齐四阶段流程,实现频谱级自适应建模。引入频带掩蔽(SBM)增强鲁棒性,利用低秩参数化降低计算开销,并在训练时促进跨模态一致性,有效提升了冷启动场景下的表示稳定性与推荐性能。

活在当下发布于 2026/4/5更新于 2026/6/1127 浏览

论文解读 | 结构化谱推理 (SSR)

背景与动机

在多模态推荐系统中,协同交互信号常与图像、文本等辅助信息混合。这种融合虽然丰富了特征空间,但也引入了模态噪声、语义错位和冗余。这些干扰会沿着用户–物品图传播被放大,导致表示不稳定,尤其在冷启动场景下效果显著。

现有的空间域融合或频域滤波方法,大多采用'拼接'或'静态重加权'策略。它们缺乏对频带级自适应调制的能力,无法有效区分哪些是承载信息的'频带',哪些是纯粹的'噪声频带'。

针对上述挑战,我们提出了一种用于频率感知的多模态图推荐的**结构化谱推理(Structured Spectral Reasoning, SSR)**框架。不同于将频带视为静态特征,SSR 在共享的频谱坐标系内,对信号进行分解、调制、融合与对齐,通过频带级操作与监督来组织学习过程。

核心架构

图 1:框架架构

模型遵循结构化的四阶段流程,旨在揭示按频带划分的结构,同时捕捉协同语义与模态特有细节。

1. 分解 (Decomposition)

首先,系统接收三种物品信息:ID 特征、图像特征、文本特征。我们在用户–物品图上利用 GCN 或 LightGCN 进行消息传递,得到每种模态各自的'协同表示'(即融合了交互关系的表示)。

接下来是关键的一步:将信号按'频率'拆分成多个子信号。你可以把图中的'频率'理解为信号变化的快慢程度:

  • 低频:变化平滑,通常对应稳定的总体偏好或大众趋势。
  • 高频:变化尖锐,往往包含细节差异,但也更容易混杂噪声。

作者对每个模态的图信号执行图小波变换(Graph Wavelet Transform),将其切分为 Spectral Band 1/2/3,分别对应低、中、高频三份子信号。这一步实现了语义粒度的隔离。

2. 调制 (Modulation)

为了提升模型的鲁棒性,我们引入频带掩蔽(Spectral Band Masking, SBM)。这是一种训练阶段的频带级扰动机制。

做法类似于数据增强,但增强对象不是像素或词,而是整段频带。在训练时,随机将某些频带置零(mask),得到一个'被扰动的频谱视图',同时保留原始全频输入。随后施加一致性损失,要求原输入的预测与 mask 后的预测尽量一致。

直觉上很简单:如果模型过度依赖某个'脆弱频带'(例如高频噪声),一旦该频带被 mask,预测就会崩塌。一致性约束会迫使模型学会更稳健的证据组合,降低对特定频带的依赖。

3. 融合 (Fusion)

前两步处理了单个模态内部的频带结构,接下来需要解决两个问题:频带之间如何互相影响(低频与高频并非孤立),以及模态之间如何互补(图像、文本、ID 如何结合)。

为此,我们设计了图超谱神经算子(Graph HyperSpectral Neural Operator, G-HSNO)。可以将其理解为:对于每个频带 $m$,它会从所有其他频带 $n$ '取信息'并加权汇总,得到新的表示 $z^{(m)}$。

$$ z^{(m)} = \sum_{n=1}^{M} K_{mn} x^{(n)} $$

关键在于,$K_{mn}$ 并非随意学习的大矩阵,而是通过**低秩(CP 分解)**进行参数压缩,避免计算开销过大。最终得到一个按频带组织的多模态表示,同时已隐含了频带交互、模态交互及图结构的依赖关系。

4. 对齐 (Alignment)

最后一步是确保不同模态在同一频带内表达'同层次'的语义。我们引入谱对比正则化(Spectral Contrastive Regularization, SCR)。

这本质上是一种 InfoNCE 对比学习:将同一物品、同一频带的不同模态表示拉近,将不匹配的拉远。该模块仅在训练时起作用,推理时不会增加额外开销,有效促进了频带级的跨模态一致性与谱鲁棒性。

优化目标

预测阶段,用户向量与物品向量做内积后经过 sigmoid 函数输出概率:

$$ \hat y_{uv} = \sigma(z_u^\top z_v) $$

总损失函数由三项加权和构成:

$$ L = L_{BCE} + \lambda L_{SBM} + \eta L_{SCR} $$

其中:

  • $L_{BCE}$:推荐任务的主损失(Binary Cross Entropy)。
  • $L_{SBM}$:频带掩蔽后的预测一致性损失。
  • $L_{SCR}$:跨模态的频带级对比对齐损失。

通过这三者的平衡,SSR 能够在抑制噪声的同时,充分利用多模态信息的互补性,实现高效且稳健的多模态图建模。

目录

  1. 论文解读 | 结构化谱推理 (SSR)
  2. 背景与动机
  3. 核心架构
  4. 1. 分解 (Decomposition)
  5. 2. 调制 (Modulation)
  6. 3. 融合 (Fusion)
  7. 4. 对齐 (Alignment)
  8. 优化目标
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • C++ set、map 及 unordered_set、unordered_map 使用详解
  • learn-claude-code:从零理解 AI Agent 设计与实现
  • Java 面试核心基础:HashMap、并发与 JVM 原理详解
  • Java 后端高效对接 Python 微调大模型的四种交互方案与实战
  • Jenkins 自动化部署教程
  • Java JDK 官网下载渠道
  • 基于 Java 的外卖点餐系统设计与实现
  • Python 调用高德地图 MCP 服务查询天气实战
  • DeepSeek-R1 本地可视化运行指南:支持多模型接入与 API 配置
  • Java 项目全局配置规则 (Always Apply)
  • ESP32 小智 AI 机器人语音对话系统设计与云端部署
  • 基于 Openclaw 与 Seed2.0 Skills 构建 AI 漫剧生成工作流
  • Windows Git 安装与配置详解 (2025 版)
  • CC-Switch:AI 编码助手配置管理工具
  • 宇树科技机器人核心技术
  • OpenClaw Webhook 配置与集成指南
  • Foxglove 开发环境完整搭建指南 (含常见坑位)
  • Copilot Cowork 核心逻辑解析:使用 Kotlin 构建 AI Agent
  • 利用豆包降低论文 AIGC 检测率的实战经验与指令模板
  • 密码攻击实践:传递 Net-NTLMv2 哈希

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online