跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

CVPR 2024 论文阅读:Fusion-Mamba 跨模态目标检测

介绍 CVPR 2024 论文 Fusion-Mamba,一种基于曼巴(Mamba)模型的跨模态目标检测方法。通过引入门控机制和隐藏状态空间,提出融合 - 曼巴块(FMB),包含状态空间通道交换(SSCS)和双状态空间融合(DSSF)模块。在 LLVIP、M³FD、FLIR-Aligned 数据集上实验表明,该方法优于现有 Transformer 融合方法,具有更高的精度和推理效率。

ArchDesign发布于 2026/4/6更新于 2026/5/2132 浏览
CVPR 2024 论文阅读:Fusion-Mamba 跨模态目标检测

1. 摘要与引言

跨模态融合能够有效整合不同模态的互补信息,提升目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。

现有融合策略通过精心设计的神经网络模块组合不同类型的图像或融合不同骨干网络特征,但这些方法忽略了模态差异对跨模态融合性能的影响。

本文基于改进的曼巴(Mamba)模型,引入门控机制,通过在隐藏状态空间中关联跨模态特征,探索跨模态融合的新范式。

[图片]

图 1. 热力图可视化。(a) 和 (b) 为初始 RGB 和 IR 输入图像;(c) 和 (d) 为使用 YOLOv8 单模态生成的热力图;(e) 为基于 CNN 融合模块的 YOLO-MS 热力图;(f) 和 (g) 为基于 Transformer 融合模块的 ICAFusion 和 CFT 热力图;(h) 为我们的 FMB 热力图,其定位效果更佳。

[图片]

图 2. 所提出的 Fusion-Mamba 方法架构。检测网络包含双流特征提取网络和三个 Fusion-Mamba 模块(FMB),其颈部和头部与 YOLOv8 相同。顶部是我们的检测框架,$\phi_i$ 和 $\varphi_i$ 分别是 RGB 和 IR 分支的卷积模块,用于生成 $F_{R_i}$ 和 $F_{IR_i}$ 特征;$\hat{F}{R_i}$ 和 $\hat{F}{IR_i}$ 是通过 FMB 增强的特征图;$P_3$、$P_4$ 和 $P_5$ 是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了 FMB 的设计细节。

本文提出 Fusion-Mamba 方法,旨在通过隐藏状态空间实现特征融合,为跨模态特征融合开辟新范式。

Fusion-Mamba 的核心创新在于融合 - 曼巴块(FMB),如图 2 所示:其中,状态空间通道交换(SSCS)模块用于浅层特征融合,提升跨模态特征的交互能力;双状态空间融合(DSSF)模块构建隐藏状态空间,实现跨模态特征的关联与互补。这两个模块共同减小了融合过程中的模态差异,如图 1(h)所示,其热力图表明本文方法能更有效地融合特征,使检测器更聚焦于目标。

本文的主要贡献如下:

  • 提出 Fusion-Mamba 方法,探索了曼巴(Mamba)在跨模态融合中的应用潜力,增强了融合特征的表示一致性。基于改进的门控曼巴模型,构建了跨模态交互的隐藏状态空间,以减小跨模态特征差异。
  • 设计了包含两个模块的融合 - 曼巴块(FMB):状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块实现隐藏状态空间中的深层融合。
  • 在三个公开 RGB-红外目标检测数据集上的大量实验表明,所提方法达到了现有最优性能,为跨模态目标检测方法建立了新基准。

2. 方法

2.1 预备知识

2.1.1 状态空间模型 (SSM)

状态空间模型(State Space Models, SSMs)常用于表示线性时不变系统,其通过一维输入序列 $x(t) \in \mathbb{R}$,经中间隐状态 $h(t) \in \mathbb{R}^N$ 处理后生成输出 $y(t) \in \mathbb{R}$。数学上,SSMs 通常表示为线性常微分方程(ODEs):

$$ h'(t) = A h(t) + B x(t) \ y(t) = C h(t) + D x(t) $$

其中,系统行为由一组参数定义,包括状态转移矩阵 $A \in \mathbb{R}^{N \times N}$、投影参数 $B、C \in \mathbb{R}^{N \times 1}$ 以及跳跃连接 $D \in \mathbb{R}$。为简化说明,一般通过设置 $D = 0$ 移除 $D x(t)$ 项。

2.1.2 离散化

考虑到计算机易于处理离散数据,因此通过离散化操作将 ODEs 离散化:

$$ \begin{array}{ll} \overline{h}k = \overline{A} h{k-1} + \overline{B} x_k, \ y(t) = \overline{C} h_k + D x_k, \ \overline{A} = e^{\Delta A}, \ \overline{B} = (\Delta A)^{-1} \left(e^{\Delta A} - I\right) \Delta B, \ \overline{C} = C \end{array} $$

其中,$B、C \in \mathbb{R}^D$,$I$ 为单位矩阵,$\overline{B}$ 和 $\overline{C}$ 分别为 $B,C$ 的离散化表达,$\Delta$ 为时间尺度参数,即离散化后的时间步长。离散化后,SSMs 通过结构化卷积核 $\tilde{K} \in \mathbb{R}^D$ 的全局卷积计算:

$$ y = x * \overline{K}, \quad K = \left(C \overline{B}, C \overline{A} \overline{B}, \cdots, C \overline{A}^{L-1} \overline{B}\right) $$

2.1.3 二维选择性扫描 (SS2D)

二维视觉数据与一维语言序列的不兼容性导致曼巴(Mamba)无法直接应用于视觉任务。为解决这一问题,提出了二维选择性扫描(2D Selective Scan, SS2D)机制,其流程如图 3 所示。

SS2D 首先将图像块向四个不同方向扩展,生成四个独立序列;这种四向扫描策略确保特征图中的每个元素都包含来自不同方向所有其他位置的信息,从而在不增加线性计算复杂度的前提下构建全面的全局感受野。

随后,每个特征序列通过选择性扫描状态空间序列模型(S6)进行处理,最后通过聚合特征序列重构二维特征图。

[图片]

首先,图像经扫描扩展生成四个不同的特征序列;随后,每个序列通过 S6 块独立处理;最后,聚合 S6 块的输出,生成最终的二维特征图。

2.2 Fusion Mamba

2.2.1 架构

本文模型架构如图 2 所示,其检测骨干网络由双流特征提取网络和三个 融合 - 曼巴块(FMB) 组成,特征提取网络从 RGB 和红外图像中提取局部特征,分别记为 $F_{R_i}$ 和 $F_{IR_i}$;随后,将这两个特征输入 FMB,通过在隐藏状态空间中关联跨模态特征,减小跨模态特征差异并增强融合特征的表示一致性。

[图片]

本文中,FMB 仅添加到最后三个阶段,生成融合特征 $P_3$、$P_4$ 和 $P_5$,这些特征作为 YOLOv8 颈部和头部的输入,最终生成检测结果。

[图片]

2.2.2 核心组件
2.2.2.1 卷积块

给定输入 RGB 图像 $I_R$ 和红外图像 $I_{IR}$,将其输入一系列卷积块以提取局部特征:

$$ F_{R_i} = \phi_i \cdots \left(\phi_2 \left(\phi_1 \left(I_R\right)\right)\right) \ F_{IR_i} = \varphi_i \cdots \left(\varphi_2 \left(\varphi_1 \left(I_{IR}\right)\right)\right) $$

其中,$\phi_i$ 和 $\varphi_i$ 分别表示 RGB 和 红外分支在第 $i$ 阶段的卷积块。

2.2.2.2 SSCS 模块

[图片]

[图片]

该模块通过 通道交换 操作和 VSS 块,增强跨模态特征交互以实现 浅层融合。通过整合不同通道的信息构建跨模态特征关联,丰富通道特征的多样性,提升融合性能。

1. 通道交换
采用通道交换操作生成 RGB 和红外的新局部特征 $T_{R_i}$ 和 $T_{IR_i}$,其公式为:$T_{R_i}=CS(F_{R_i},F_{IR_i}), \quad T_{IR_i}=CS(F_{IR_i},F_{R_i})$。其中,$CS(\cdot, \cdot)$ 为通道交换操作,通过通道分割和拼接实现:首先将局部特征 $F_{R_i}$ 和 $F_{IR_i}$ 沿通道维度均分为四等份;然后,从 $F_{R_i}$ 中选取第 1 和第 3 部分,从 $F_{IR_i}$ 中选取第 2 和第 4 部分,按顺序拼接生成 RGB 新局部特征 $T_{R_i}$;同理生成红外新局部特征 $T_{IR_i}$。

2. 跨模态交互
对 $T_{R_i}$ 和 $T_{IR_i}$ 应用 VSS 块,从浅层特征增强跨模态交互:$\tilde{F}{R_i}=VSS(T{R_i}), \quad \tilde{F}{IR_i}=VSS(T{IR_i})$。其中,VSS($\cdot$) 表示图 2 中的 VSS 块;$\tilde{F}{R_i}$ 和 $\tilde{F}{IR_i}$ 分别为 RGB 和红外模态的浅层融合特征输出。

2.2.2.3 DSSF 模块

为进一步减小模态差异,构建用于跨模态特征关联与互补的隐藏状态空间。

DSSF 模块通过建模跨模态目标关联,促进特征融合。具体而言,采用 VSS 块将两种模态的特征投影到隐藏状态空间,并利用 门控 机制构建双向隐状态转换,实现跨模态深层特征融合。

1. 投影到隐藏状态空间
得到浅层融合特征 $\tilde{F}{R_i}$ 和 $\tilde{F}{IR_i}$ 后,首先通过 无门控 的 VSS 块 将其投影到隐藏状态空间:

$$ y_{R_i}=P_{in}(\tilde{F}{R_i}), \quad y{IR_i}=P_{in}(\tilde{F}_{IR_i}) $$

其中,$P_{in}(\cdot)$ 表示将特征投影到隐藏状态空间的操作(详细实现见算法 1 第 13-17 行);$y_{R_i}$ 和 $y_{IR_i}$ 表示 隐状态特征。

2. 生成门控参数
对 $\tilde{F}{R_i}$ 和 $\tilde{F}{IR_i}$ 进行投影,得到门控参数 $z_{R_i}$ 和 $z_{IR_i}$:

$$ z_{R_i}=f_{\theta_i}(\tilde{F}{R_i}), \quad z{IR_i}=g_{\omega_i}(\tilde{F}_{IR_i}) $$

其中,$f_{\theta_i}(\cdot)$ 和 $g_{\omega_i}(\cdot)$ 分别表示双流中带有参数 $\theta_i$ 和 $\omega_i$ 的门控操作。

3. 隐状态特征融合
利用式中的门控输出 $z_{R_i}$ 和 $z_{IR_i}$ 对 $y_{R_i}$ 和 $y_{IR_i}$ 进行调制,实现隐状态特征融合:

$$ y'{R_i}=y{R_i} \cdot z_{R_i}+z_{R_i} \cdot y_{IR_i} \ y'{IR_i}=y{IR_i} \cdot z_{IR_i}+z_{IR_i} \cdot y_{R_i} $$

其中,$y'{R_i}$ 和 $y'{IR_i}$ 分别表示融合后的 RGB 和红外隐状态特征;'$\cdot$' 表示按元素乘积。

4. 残差连接与特征增强
将 $y'{R_i}$ 和 $y'{IR_i}$ 投影回原始空间,并通过残差连接得到互补特征 $\overline{F}{R_i}$ 和 $\overline{F}{IR_i}$:

$$ \overline{F}{R_i}=P{out}(y'{R_i})+\tilde{F}{R_i} \ \overline{F}{IR_i}=P{out}(y'{IR_i})+\tilde{F}{IR_i} $$

其中,$P_{out}(\cdot)$ 表示带有线性变换的投影操作。

增强特征表示:$\hat{F}{R_i}=F{R_i}+\overline{F}{R_i}, \quad \hat{F}{IR_i}=F_{IR_i}+\overline{F}_{IR_i}$

2.2.2.4 FMB 算法(算法 1)

[图片]

2.2.2.5 损失函数

经 FMB 处理后,RGB 和红外的增强特征(即 $\hat{F}{R_i}$ 和 $\hat{F}{IR_i}$)通过加法进一步融合,生成融合特征 $P_i$ 作为颈部输入,以提升检测性能。

总损失函数定义为:$\mathcal{L}=\lambda_{coord } \mathcal{L}{coord }+\mathcal{L}{conf }+\mathcal{L}{class }$。其中,$\lambda{coords}$ 为调节定位损失 $\mathcal{L}{coords}$ 权重的超参数,$\mathcal{L}{conf}$ 为置信度损失,$\mathcal{L}_{class}$ 为分类损失。

2.2.3 与基于 Transformer 的融合方法对比

现有基于 Transformer 的跨模态融合方法通过卷积对特征进行展平与拼接,生成中间融合特征,再通过多头交叉注意力进一步融合得到最终特征。这些方法仅通过空间交互无法有效减小模态差异,因为难以建模跨模态特征的目标关联。本文的 FMB 块通过四向扫描特征获得四组图像块,有效保留特征的局部信息;同时,将这些图像块映射到隐藏空间进行特征融合,这种基于映射的深层特征融合方法通过双向门控注意力有效减小了空间差异,进一步抑制冗余特征并捕捉模态间的互补信息。因此,所提 FMB 块减小了跨模态特征差异,增强了融合特征的表示一致性。

此外,Transformer 全局注意力的时间复杂度为 $O(N^2)$,而曼巴(Mamba)的时间复杂度仅为 $O(N)$($N$ 为序列长度)。从实验角度来看,在相同的检测模型架构下,用 Fusion-Mamba 块替换基于 Transformer 的融合模块,对单对图像的推理时间可节省 7-19ms(实验部分将详细讨论)。

3. 实验

3.1 实验设置

3.1.1 数据集

实验在三个广泛使用的可见光 - 红外(RGB-IR)基准数据集上进行评估,覆盖低光、多场景及昼夜环境,具体信息如下:

  • LLVIP:低光环境下的行人检测数据集,包含 15,488 对对齐的 RGB-IR 图像。数据采集于夜间低光照条件,聚焦行人目标检测。遵循官方划分,使用 12,025 对图像训练,3,463 对测试。
  • M³FD:多模态多场景数据集,包含 4,200 对对齐的 RGB-IR 图像,覆盖不同光照(如强光、弱光)、季节(春、夏、秋、冬)和天气(晴、雨、雾)场景。数据涵盖自动驾驶和道路监控中常见的 6 个类别(行人、车辆、自行车等)。由于无官方划分,采用文献 [18] 的训练/测试分割。
  • FLIR:昼夜场景数据集,包含 5 个类别(人、汽车、自行车、狗、其他车辆)。遵循文献 [38],使用 FLIR-Aligned 子集,其中 4,129 对训练,1,013 对测试。
3.1.2 评估指标

采用目标检测领域最常用的两个指标:

  • mAP₅₀:IoU 阈值为 0.50 时的平均精度(Average Precision),反映模型对目标定位和分类的基础能力;
  • mAP:IoU 阈值在 0.50 到 0.95(步长 0.05)范围内的平均精度,综合评估模型在不同重叠度下的鲁棒性。

此外,报告在 A800 GPU 上对输入尺寸为 640×640 的图像进行 5 次运行评估的平均推理时间(单位:ms),衡量模型的计算效率。

3.1.3 实现细节

所有实验基于双流框架 [6],在单张 A800 GPU 上完成。默认使用 YOLOv5-l 或 YOLOv8-l 作为主干网络(Backbone),颈部(Neck)和头部(Head)结构与对应 YOLO 版本保持一致。训练超参数设置如下:

  • 批量大小(Batch Size):4;
  • 优化器:SGD,动量(Momentum)0.9,权重衰减(Weight Decay)0.001;
  • 输入尺寸:640×640;
  • 训练轮次(Epochs):150;
  • 初始学习率(Initial LR):0.01;
  • Fusion-Mamba 模块参数:SSCS 模块数量 1,DSSF 模块数量 8;
  • 定位损失权重:$\lambda_{\text{coord}} = 7.5$(其他超参数与 YOLOv8 默认配置一致)。

3.2 与现有最优方法的对比

3.2.1 LLVIP 数据集

为验证 Fusion-Mamba 的有效性,我们在 LLVIP 数据集上与两类方法对比:单模态检测方法(仅 RGB 或仅 IR)和多光谱融合方法(同时利用 RGB-IR 特征)。实验结果如表 1 所示。

[图片]

LLVIP 作为低光行人检测数据集,单模态检测中 IR 模态因对光照不敏感,性能普遍优于 RGB 模态(如仅 IR 的 Cascade R-CNN mAP 为 58.4%)。融合方法通过跨模态信息互补,理论上应优于单模态检测。

  • 与单模态方法对比:基于 ResNet50 主干的 RSDet(融合方法)在 LLVIP 上 mAP 为 62.9%,较仅 IR 的 Cascade R-CNN(58.4%)提升 4.5%;而仅 IR 的简单 YOLOv5 框架(无融合)已达到 61.9% mAP,显著优于部分融合方法(如 DIVFusion 仅 9.9% mAP),说明低质量融合可能破坏 IR 模态的固有优势。
  • 与多光谱融合方法对比:在相同 YOLOv5 主干下,Fusion-Mamba 的 mAP 为 62.8%(较仅 IR 的 YOLOv5 提升 0.9%),较 RSDet(61.3%)提升 1.5%。核心优势源于 SSCS 模块的浅层通道交换(增强跨模态信息交互)和 DSSF 模块的深层门控融合(抑制冗余特征并捕捉互补信息),有效减少了模态差异,提升了融合特征的表示一致性。
  • 与 YOLOv8 主干对比:基于 YOLOv8-l 的 Fusion-Mamba 进一步优化了性能,达到 mAP₅₀=97.0%、mAP=64.3%,为当前 LLVIP 上的最优结果。
3.2.2 M³FD 数据集

我们将我们的方法与 7 种基于 YOLOv5 的现有最优检测器和 1 种基于 YOLOv7 的现有最优检测器进行比较。如表 2 所示,与基于相同 YOLOv5 主干的现有最优方法相比,我们的 Fusion-Mamba 在所有类别上使用 mAP₅₀和 mAP 指标均表现最佳;基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 类别上实现了新的现有最优结果,同时 mAP₅₀和 mAP 指标进一步提升了 3% 和 4.4%。此外,尽管 YOLOv5 的特征表示能力低于 YOLOv7,我们使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP₅₀,这得益于我们 FMB 的有效性,提升了跨模态特征的固有互补性。

[图片]

3.2.3 FLIR-Aligned 数据集

如表 3 所示,Fusion-Mamba 在 Aligned-FLIR 数据集上也表现最佳。与基于双流 YOLOv5 主干的 CrossFormer 相比,我们基于 YOLOv8 和 YOLOv5 的方法在 mAP₅₀上分别超越它们 5.6% 和 5%,在 mAP 上分别超越 4.9% 和 2.3%。我们还比 RSDet 高出 3.8% mAP₅₀和 5.6% mAP。在速度方面,我们使用 YOLOv5 的方法实现了最快速度,与基于 Transformer 的 CFT 和 CrossFormer 方法相比,一对图像的检测分别节省 7ms 和 19ms。在参数方面,我们基于 YOLOv5 的方法比 CrossFormer 方法节省约 100M 参数。尽管我们基于 YOLOv8 的方法比 YOLOv5 增加了约 40M 参数,但 mAP 显著提升了 2.6%。该结果表明,我们基于隐藏空间建模的方法更好地整合了不同模态之间的特征,抑制了模态差异,以最佳的性能和计算成本权衡增强了融合特征的表示能力。

[图片]

3.2.4 热力图可视化

为直观展示我们模型的高性能,我们从三个实验数据集中各随机选择一对图像,可视化 P₅热力图,并与其他融合方法进行比较。如图 5 所示,与其他方法相比,我们的模型更聚焦于目标,而非分散或聚焦于无关部分。更多示例见补充材料。我们还在补充材料中可视化了目标检测结果,以评估我们方法的有效性。

[图片]

3.3 消融实验

我们使用 FLIR-Aligned 数据集进行消融实验,以分别验证 SSCS 和 DSSF 模块的有效性,并进一步探索 DSSF 模块数量和位置的影响。特别地,我们还评估了 DSSF 模块双向注意力的效果。所有实验均基于 YOLOv8 主干进行。

3.3.1 SSCS 和 DSSF 模块的影响

FMB 中移除 SSCS 和 DSSF 的结果汇总于表 4。

[图片]

移除 SSCS 模块后(表 4 第二行),检测器性能在 mAP₅₀和 mAP 上分别下降 2% 和 1.1%。原因在于,没有两模态特征的初始交换和浅层映射融合,在后续深层融合中特征差异未得到有效减少。同时,没有 DSSF(表 4 第三行),仅浅层融合交互无法在特征融合过程中有效抑制冗余特征并激活有效特征,导致检测器性能在 mAP₅₀和 mAP 上分别下降 2.5% 和 2.4%。同时移除 SSCS 和 DSSF,直接通过两局部模态特征相加获得融合特征(表 4 第四行),其性能在 mAP₅₀和 mAP 上分别显著下降 4.8% 和 7.6%。这些结果表明,FMB 的这两个组件对跨模态目标检测有效。

3.3.2 FMB 位置的影响

遵循 [6,14] 的工作,我们也设置三个 FMB 用于特征融合。在此,我们进一步探索 FMB 位置的影响,即应在哪些阶段添加 FMB。我们选择三组多级特征:$P_2, P_3, P_5$、$P_2, P_4, P_5$ 和 $P_3, P_4, P_5$ 进行消融实验,其中 $P_i$ 是使用 FMB 在第 $i$ 阶段的融合特征。如表 5 所示,位置 $P_3, P_4, P_5$ 在性能和计算复杂度之间实现了最佳权衡,因此我们默认选择此位置进行实验。

[图片]

表 5. FLIR-Aligned 数据集上 FMB 位置的影响。

3.3.3 DSSF 模块数量的影响

我们已在表 4 中验证了 DSSF 的有效性,在此进一步评估 DSSF 模块数量的影响,结果汇总于表 6。

[图片]

我们选择四种 DSSF 数量(即 2、4、8、16),并保持其他模型设置与上述实验一致。可以看出,模块数量设置为 8 时实现最佳性能,8 个 DSSF 模块将达到饱和,增加数量会导致互补特征漂移,从而降低融合性能。

3.3.4 DSSF 模块双向注意力的影响

[图片]

为进一步探索我们门控机制中 DSSF 模块双向注意力的有效性,我们分别移除 RGB 分支中的 IR 注意力(即式 9 中的 $z_{IR_i} \cdot y_{R_i}$)、IR 分支中的 RGB 注意力(即式 10 中的 $z_{IR_i} \cdot y_{R_i}$)以及双向注意力。结果如表 7 所示。移除 IR 注意力或 RGB 注意力后,由于减少了两特征间的注意力交互,mAP₅₀分别下降 1.6% 或 1.1%;当移除双向注意力时,DSSF 模块变为 VSS 块的堆叠,mAP₅₀下降 2%。值得注意的是,IR 和 RGB 注意力分支与其他分支共享权重,与移除双向注意力相比,这相当于仅添加激活函数和特征加法操作。因此,双向注意力的使用对模型参数和运行时间没有显著影响,但显著提升了检测性能。

4. 结论

本文提出了一种新颖的 Fusion-Mamba 方法,通过精心设计的 SSCS 模块和 DSSF 模块实现多模态特征融合。具体而言,SSCS 交换红外和可见光通道特征以实现浅层特征融合;随后,DSSF 进一步设计用于在基于 Mamba 的隐藏状态空间中实现更深层的多模态特征交互,门控注意力用于抑制冗余特征以增强特征融合的有效性。在三个公共 RGB-IR 数据集上进行的大量实验表明,我们的方法实现了现有最优性能,且推理效率高于 Transformer。我们的工作证实了 Mamba 在跨模态融合中的潜力,相信我们的工作能为 Mamba 在跨模态任务中的应用激发更多研究。

目录

  1. 1. 摘要与引言
  2. 2. 方法
  3. 2.1 预备知识
  4. 2.1.1 状态空间模型 (SSM)
  5. 2.1.2 离散化
  6. 2.1.3 二维选择性扫描 (SS2D)
  7. 2.2 Fusion Mamba
  8. 2.2.1 架构
  9. 2.2.2 核心组件
  10. 2.2.2.1 卷积块
  11. 2.2.2.2 SSCS 模块
  12. 2.2.2.3 DSSF 模块
  13. 2.2.2.4 FMB 算法(算法 1)
  14. 2.2.2.5 损失函数
  15. 2.2.3 与基于 Transformer 的融合方法对比
  16. 3. 实验
  17. 3.1 实验设置
  18. 3.1.1 数据集
  19. 3.1.2 评估指标
  20. 3.1.3 实现细节
  21. 3.2 与现有最优方法的对比
  22. 3.2.1 LLVIP 数据集
  23. 3.2.2 M³FD 数据集
  24. 3.2.3 FLIR-Aligned 数据集
  25. 3.2.4 热力图可视化
  26. 3.3 消融实验
  27. 3.3.1 SSCS 和 DSSF 模块的影响
  28. 3.3.2 FMB 位置的影响
  29. 3.3.3 DSSF 模块数量的影响
  30. 3.3.4 DSSF 模块双向注意力的影响
  31. 4. 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Ilya Sutskever 精选 AI 论文清单:40 大核心文献整理与解析
  • AI 时代,为何架构师反而更稀缺了?
  • WSL Ubuntu 24 配置 root 密码并默认登录
  • Ansible 批量部署 Nginx 实战指南
  • 阿里通义千问 Qwen3-Coder:智能代码生成与代理式编程
  • 数据结构:归并排序算法详解与实现
  • 80 元低成本无人机系统设计与实现
  • AI 辅助蛋白质折叠预测:算法与生物学的结合
  • 大模型产品经理转型指南:核心技能与职业发展路径
  • Altera USB-Blaster 驱动安装与 FPGA 下载调试指南
  • 小智 AI 设备绑定与解绑操作指南
  • 算法基础:双指针法处理数组分块问题
  • Vue3 前端与服务器时间同步的几种实现方法
  • 前端开发基础:HTML、CSS 与 JavaScript 入门
  • EasyConnect 跨平台安装与首次连接配置指南
  • YOLO12 目标检测 WebUI 快速部署实战
  • Python + Neo4j 构建知识图谱入门教程
  • AIGC 内容创作全流程:文字、图像、音频与视频生成指南
  • Web 服务与 I/O 模型:原理与 Nginx 实战
  • Termux+Ubuntu 本地部署 OpenClaw 与 Llama 模型教程

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online