一、研究动机
1. 研究目标
构建一个 All-in-One 盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。
2. 过去方法
- 任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
- 早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
- 通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。
3. 本文方法
核心思想:把'退化类型'当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。
关键模块:
- Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
- Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。
整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。
4. 优势以及创新点
- 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
- 无需退化先验或对比学习,训练友好。
- 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
- Prompt Block 架构无关,可一键嵌入任意现有复原网络。
二、算法主要思想与原理详解
[图:PromptIR 架构概述]
-
Prompt 架构整体就是在 Restormer 的架构基础上在每层采样之间加上了一个 Prompt Block 模块。
-
整体流程
- 输入退化图 I ∈ R^(H×W×3)
- 卷积提取浅层特征 F0
- 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
- 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
- 输出复原图 Î
-
Prompt Block 内部机制 (1) PGM:动态生成提示
- Fl ∈ R^(Hi×Wi×C)
- GAP → 向量 v ∈ R^C
- 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
- w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P
(2) PIM:提示 - 特征交互
- 通道拼接 → 送入标准 Transformer Block:
- MDTA(Multi-Dconv Head Transposed Attention):在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。输出 Y = Wp·V·Softmax(K·Q/α)+X
- GDFN(Gated-Dconv Feed-Forward):两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
- 3×3 Conv 输出增强特征 F̂l
三、实验结果
- 数据集
- 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张 128×128 块。
- 测试:
- BSD68、Urban100(denoising σ=15,25,50)
- Rain100L(deraining)
- SOTS-indoor(dehazing)
- 评价指标:PSNR (dB)、SSIM


