CVPR 2025 论文总结:黑暗中的重构与去噪新视角与通用架构
一、研究背景
1.1 RAW 和 RGB 的区别
RAW 图像是传感器直接捕获的原始数据,通常以 Bayer 阵列形式存储,未经任何 ISP 处理。每个像素仅记录单一颜色通道的强度值,保留了最原始的感光信息。
本文指出,相比于 RGB 域,RAW 域的处理在低光条件下具有显著优势:
- 保留未压缩的传感器数据:RAW 数据避免了 ISP 流水线中的不可逆失真,为重建与去噪提供了更丰富、更真实的信号基础。
- 避免噪声放大与伪影:RGB 图像在 ISP 过程中可能引入噪声放大、色彩失真与压缩伪影,而 RAW 数据则保持噪声的自然分布,便于建模与去除。
- 支持端到端优化:在 RAW 域中,去噪与重建可以在统一的信号空间中进行联合优化,避免任务间的信息断层与误差累积。
- 更适合深度学习模型:RAW 数据的线性特性与完整信息使得深度学习模型能够更有效地学习噪声分布、色彩映射与细节恢复之间的复杂关系。
1.2 相关研究
目前解决 RAW 处理的有三种范式:
传统方法,直接通过 ISP 通道,纯数学计算,没有办法根据照片调整,在低光图像上会出现大量的噪点以及失真,这样生成的 RGB 图像再去进行低照度处理,会固有地遭受图像信号处理 (ISP) 管道引起的不可逆失真,例如噪声放大和压缩伪影,这给学习和优化带来了额外的挑战。
D or R 单任务方法,把去噪和重建当作两个不同的任务,但是该方法无法同时实现去噪和重建,往往忽略了这些任务之间的相互作用,从而产生残留噪声、颜色不正确等固有问题。
D for R 多任务方法,把去噪当作重建的前提操作,这会出现一个问题,噪点去掉有利于颜色恢复,颜色信息也能帮助区分什么是噪点,他们的内部应该是相通的,忽略掉这种关系会导致训练结果不是最优,并且导致两个功能无法区分。经典的方法如 MCR 和 DNF。
-
MCR:在近乎全黑的环境下,颜色信息已经极其微弱且不可信,不应执着于从一开始就采集有瑕疵的彩色信号,它首先提出一个算法将原始的、带拜耳滤镜的 RAW 数据,模拟重构成仿佛由一个没有拜耳滤镜的单色(灰度)传感器所捕获的数据用来获取结构信息,然后拿着学习到的结构信息注入到重建里面。
-
DNF:创新在于它显式地将重建任务分解为两个子问题,并让它们相互作用,它将网络分为两个部分去噪和重建,去噪是作为辅助网络,去噪模块生成了一个噪声分布先验,然后注入重建网络,整体实现的是用去噪指导重建。
1.3 论文的创新方式
D for R 多任务策略,它整体就有点像上边提到的 DNF,不过 DNF 更像一种总分总的结构,CANS 更像一种分总分的结构,它首先设计了一个类似知识库的模块,在这里面添加了色彩感知和纹理感知模块,用来学习图片中的色彩和纹理信息,然后把这些信息分到两个轻量的头上,去噪头和重建头,它们从知识库学习提取到的色彩信息和纹理信息进行处理。
二、模型架构
2.1 色彩和感知模块架构
2.1.1 GCP 全局色度感知器
它由归一化和 GCPA 组成,下面主要讲解一下 GCPA:
它首先经过 11 的卷积融合通道信息和 33 的深度卷积融合周围信息,并生成 Q,K,V,其中 Q,K 进行 pooling 池化,将 [C, H, W] 的特征图池化为 [C, H/s, W/s],降低了计算的复杂度的同时,聚合了色彩的信息,然后进行矩阵的乘法和 softmax 计算注意力权重,再与 v 相乘计算出来全局色彩上下文调制后的特征,它和普通的注意力计算不一样,就是图片最右侧 O((HW)^2) 降至 O(HW * (HW/s^2))。
为什么 GCP 能够实现只提取色彩特征而不提取纹理特征:
- 数据的输入:在 RAW 中,色彩与空间信息是'解耦'的:每个像素点只记录一种颜色(红、绿或蓝)的亮度。相邻像素记录的是不同颜色的信息。这种结构使得'颜色'信息天然分布在通道维度上,而'纹理'需要组合多个相邻的不同颜色像素才能形成。
- 池化的存在:池化会破坏纹理信息,让一块部分直接融合,所以就不会有纹理信息,但又能保存色彩信息。
- 损失函数:总损失 L_total = L_denoise + L_reconstruct 当提取色彩特征的时候会获得更好的提升,所以模型会将整个模块往色彩方面训练。


