论文解读:低光照图像重构与去噪的新视角与通用架构
该论文针对低光照条件下的图像重建与去噪问题,提出了一种基于 RAW 域处理的新范式。相比传统 RGB 方法,RAW 数据保留了传感器原始信息,避免了 ISP 失真。模型采用骨干网络加轻量化任务头的架构,包含全局色度感知器(GCP)和纹理细节提取器(RDE)。通过多任务学习联合优化去噪与重建损失,利用交叉注意力机制(CANS++)增强任务间协作。实验表明该方法在噪声抑制和色彩恢复上优于现有单任务或串联方案。

该论文针对低光照条件下的图像重建与去噪问题,提出了一种基于 RAW 域处理的新范式。相比传统 RGB 方法,RAW 数据保留了传感器原始信息,避免了 ISP 失真。模型采用骨干网络加轻量化任务头的架构,包含全局色度感知器(GCP)和纹理细节提取器(RDE)。通过多任务学习联合优化去噪与重建损失,利用交叉注意力机制(CANS++)增强任务间协作。实验表明该方法在噪声抑制和色彩恢复上优于现有单任务或串联方案。

RAW 图像是传感器直接捕获的原始数据,通常以 Bayer 阵列形式存储,未经任何 ISP 处理。每个像素仅记录单一颜色通道的强度值,保留了最原始的感光信息。
本文指出,相比于 RGB 域,RAW 域的处理在低光条件下具有显著优势:

目前解决 RAW 处理的有三种范式:


D for R 多任务策略,整体类似于上述提到的 DNF,不过 DNF 更像一种总分总的结构,CANS 更像一种分总分的结构。它首先设计了一个类似知识库的模块,在这里面添加了色彩感知和纹理感知模块,用来学习图片中的色彩和纹理信息,然后把这些信息分到两个轻量的头上:去噪头和重建头,它们从知识库学习提取到的色彩信息和纹理信息进行处理。

如图,它由归一化和 GCPA 组成,主要讲解一下 GCPA:
它首先经过 11 的卷积融合通道信息和 33 的深度卷积融合周围信息,并生成 Q、K、V。其中 Q、K 进行 pooling 池化,将 [C, H, W] 的特征图池化为 [C, H/s, W/s],降低了计算的复杂度同时聚合了色彩的信息。然后进行矩阵的乘法和 softmax 计算注意力权重,再与 V 相乘计算出来全局色彩上下文调制后的特征。它和普通注意力计算不一样,就是图片最右侧 O((HW)^2) 降至 O(HW * (HW/s^2))。
为什么 GCP 能够实现只提取色彩特征而不提取纹理特征:
它首先使用一个 7*7 的空洞卷积,获取全局感受野并且获得提取细节纹理,然后进行归一化,然后连接一个门控函数。门控函数进去之后把特征送入两条路线,一条线性变换一条非线性变换,最后提升重要部分。
7*7 深度可分离大核空洞卷积:

论文中并没有提到全局架构,只提了一下是由 U 形网络构成,然后根据代码还原的全局结构如下:

U 形网络部分被称为 Backbone(骨干网络),它就相当于是专家库,另外两个任务头就从这里面获取相关知识进行学习处理。之所以要有这个专家库,是因为专家库里面有色彩信息和纹理信息,它对两个任务都有好处。

(1) 参数结构
(2) 优化目标 优化器同时最小化去噪损失(L_den)和重建损失(L_rec)。这是一个多目标优化问题。网络无法使两个损失都达到单独训练时的最小值,但可以通过调整 (θ_b, θ_m, θ_n) 来寻找一个最优解——即在此点上,降低任何一个损失都会导致另一个损失上升。
(3) '动态分配资源'的机制 资源分配不是由一个外部控制器完成的,而是通过反向传播的梯度流自动、隐式实现的。在反向传播时,L_den 和 L_rec 产生的梯度会汇聚到共享主干 θ_b。
CANS++ 相当于在原来的 CANS 上两任务头之间用交叉注意力建立连接。它实际上就是拿骨干网络生成 K、V,再拿两个任务头生成它们独特的 Q,然后进行注意力计算。最后训练出两个任务头,它的设计主要是每一次循环练完的参数会更新骨干网络,骨干网络又能生成 KV 和它们再次联系,从而就能使两个任务头能够进行互相的联系,这个任务头能从骨干获取上一轮另一个任务头产生的信息。
论文中没有给出完整流程图,这里提供一份参考:

它实际上就是比普通的 CANS 加了一个交叉联系。

这篇论文主要是提出了一个新范式,就是骨干 + 轻量化任务头。最初一直不理解它跟端到端模型有什么区别,因为它一直在提自己比单任务串联好。经分析,这个论文本质上是一个新思想,它依赖的是设计来提升模型,而之前的 Retinexformer 和 Restormer 更像是依赖一个模型然后黑箱计算,直接得到结果。
这篇论文本质上还是在主要训练 Backbone,无论是 CANS 还是 CANS++,它本质上就是训练出来一个更聪明、更全面的专家来帮助后边任务完成结果。所以当论文中有提到去掉某一个任务头只执行单任务也可以得到很好的结果,因为骨干网络被训练得很好很完善。
对于这篇论文,后续研究方向包括:
同时认为论文提出这个骨干网络和多任务的交叉注意力是个很好的地方,可以训练出一个足够全能的专家网络,让它进行一些更多更全面的任务。这在高级视觉任务里面挺常见,如目标检测分割,所以认为这一类高级视觉任务的某些思想应该在低级视觉任务中会有很好的效果。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online