研究动机
研究目标
构建一个"All-in-One"盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。
过去方法
- 任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
- 早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
- 通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。
本文方法
核心思想:把'退化类型'当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。 关键模块:
- Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
- Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。 整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。
优势以及创新点
- 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
- 无需退化先验或对比学习,训练友好。
- 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
- Prompt Block 架构无关,可一键嵌入任意现有复原网络。
算法主要思想与原理详解

-
Prompt 架构整体就是在 Restormer 的架构基础上在每层采样之间加上了一个 Prompt Block 模块。
-
整体流程
- 输入退化图 I ∈ R^(H×W×3)
- 卷积提取浅层特征 F0
- 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
- 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
- 输出复原图 Î
-
Prompt Block 内部机制 (1) PGM:动态生成提示
- Fl ∈ R^(Hi×Wi×C)
- GAP → 向量 v ∈ R^C
- 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
- w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P
(2) PIM:提示 - 特征交互
- 通道拼接 → 送入标准 Transformer Block:
- MDTA(Multi-Dconv Head Transposed Attention):在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。输出 Y = Wp·V·Softmax(K·Q/α)+X
- GDFN(Gated-Dconv Feed-Forward):两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
- 3×3 Conv 输出增强特征 F̂l
实验结果
- 数据集
- 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张 128×128 块。
- 测试:
- BSD68、Urban100(denoising σ=15,25,50)
- Rain100L(deraining)
- SOTS-indoor(dehazing)
- 评价指标:PSNR (dB)、SSIM
定性实验

单任务专用模型再对比:
- 去雾:PromptIR 31.31 dB,比 AirNet 高 8.13 dB,比 Restormer 高 0.44 dB。
- 去雨:37.04 dB,比 AirNet 高 2.13 dB。
- 去噪 σ=50:29.39 dB(Urban100),比 AirNet 高 0.51 dB。

定量结果(All-in-One 单模型)




- 去雾场景,PromptIR 彻底去除远处雾幕,建筑边缘无伪影;AirNet 有残留灰色雾墙。
- 去雨场景,雨丝密度高时,PromptIR 无条纹残留,车牌文字清晰;AirNet 可见轻微雨痕。
- 去噪 σ=50,纹理细节(砖缝、窗户)保持完整,无过度平滑。
消融实验


- 无 Prompt Block:平均 PSNR 降 0.38 dB。
- 固定 Prompt:再降 0.19 dB。
- Prompt 放在编码器 + 解码器:性能反而下降 0.92 dB,说明'解码器单侧注入'最佳。
- 未见噪声水平 σ=35:AirNet 仅 13.64 dB,PromptIR 21.03 dB,差距 7.4 dB,验证泛化能力。
结论
PromptIR 首次把提示学习引入图像复原,用极轻量插件实现'一个模型、三种退化、盲设置'下的新 SOTA。未来工作将:
- 把 Prompt Block 拓展到更多退化(模糊、低分辨率、混合失真)以逼近'通用复原大模型'。
- 结合物理退化模型与对抗训练,进一步提升极端场景鲁棒性。


