论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

作者:Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang

机构:Mohamed bin Zayed University of AI, Linköping University

来源期刊:NeurIPS

发表时间:2023年
 

一、研究动机

        1.研究目标


        构建一个“All-in-One”盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。

        2.过去方法


        任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
         早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
        通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。

         3.本文方法      


        核心思想:把“退化类型”当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。
关键模块:
        Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
        Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。
        整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。

        4.优势以及创新点


        ① 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
        ② 无需退化先验或对比学习,训练友好。
        ③ 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
        ④ Prompt Block 架构无关,可一键嵌入任意现有复原网络。

二、算法主要思想与原理详解

PromptIR架构概述
  1. Prompt 架构整体就是在Restormer 的架构基础上在每层采样之间加上了一个Prompt Block模块。
  2. 整体流程
    输入退化图 I ∈ R^(H×W×3)
    → 卷积提取浅层特征 F0
    → 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
    → 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
    → 输出复原图 Î

        3.Prompt Block 内部机制
        (1) PGM:动态生成提示
        Fl ∈ R^(Hi×Wi×C)
        → GAP → 向量 v ∈ R^C
        → 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
        → w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P

        (2) PIM:提示-特征交互
           通道拼接 → 送入标准 Transformer Block:
        – MDTA(Multi-Dconv Head Transposed Attention)
          在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。
          输出 Y = Wp·V·Softmax(K·Q/α)+X
        – GDFN(Gated-Dconv Feed-Forward)
          两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
        → 3×3 Conv 输出增强特征 F̂l

三、实验结果

  1. 数据集
  2. 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张128×128块。
  3. 测试:
    – BSD68、Urban100(denoising σ=15,25,50)
    – Rain100L(deraining)
    – SOTS-indoor(dehazing)
  4. 评价指标
    PSNR (dB) 、SSIM 

四.定性试验​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​

去雨场景下的性能对比

单任务专用模型再对比:
 去雾:PromptIR 31.31 dB,比 AirNet 高 8.13 dB,比 Restormer 高 0.44 dB。
 去雨:37.04 dB,比 AirNet 高 2.13 dB。
 去噪 σ=50:29.39 dB(Urban100),比 AirNet 高 0.51 dB。 

去噪场景下的性能对比

定量结果(All-in-One 单模型)

全集成修复场景下的性能对比分析
去雾场景下的性能对比
图片去雨比较
图片去噪比较
  1.  去雾场景,PromptIR 彻底去除远处雾幕,建筑边缘无伪影;AirNet 有残留灰色雾墙。
     去雨场景,雨丝密度高时,PromptIR 无条纹残留,车牌文字清晰;AirNet 可见轻微雨痕。
     去噪 σ=50,纹理细节(砖缝、窗户)保持完整,无过度平滑。
  2. 消融实验
图片去雾比较
消融实验

        无 Prompt Block:平均 PSNR 降 0.38 dB。  固定 Prompt:再降 0.19 dB。 Prompt 放在编码器+解码器:性能反而下降 0.92 dB,说明“解码器单侧注入”最佳。  未见噪声水平 σ=35:AirNet 仅 13.64 dB,PromptIR 21.03 dB,差距 7.4 dB,验证泛化能力。

五、结论

PromptIR 首次把提示学习引入图像复原,用极轻量插件实现“一个模型、三种退化、盲设置”下的新 SOTA。未来工作将:

  1. 把 Prompt Block 拓展到更多退化(模糊、低分辨率、混合失真)以逼近“通用复原大模型”
  2. 结合物理退化模型与对抗训练,进一步提升极端场景鲁棒性

Read more

宏智树AI:ChatGPT学术版驱动,重塑学术写作新生态

宏智树AI:ChatGPT学术版驱动,重塑学术写作新生态

在学术研究的赛道上,低效的文献梳理、繁琐的数据处理、严苛的学术规范,常让科研工作者与高校师生陷入创作困境。宏智树AI(官网:www.hzsxueshu.com),一款由ChatGPT学术版模型深度驱动、搭载AI5.0技术架构的专业学术智能解决方案平台,专为论文写作场景量身打造,以“全流程覆盖、高精准赋能、强合规保障”为核心,构建从大纲生成到定稿答辩的一站式学术服务体系,让学术创作告别低效内耗,回归研究本质。 一、顶尖技术底座:AI5.0+ChatGPT学术版,定义智能学术新高度 宏智树AI的核心竞争力,源于业内领先的双重技术赋能,打破传统学术工具的性能边界,实现从“文字生成”到“学术赋能”的跨越式升级。 ChatGPT学术版模型赋予平台精准的语义理解与逻辑推理能力,深度契合文、理、工、医等全学科学术写作范式,杜绝口语化、散文化表达,让文本兼具严谨性与可读性;AI5.0技术架构则实现多模态数据原生一体化处理,将文本、数据、图表、公式等学术元素深度融合,

保姆级教程:从零搭建你的第一个AI Agent

保姆级教程:从零搭建你的第一个AI Agent

保姆级教程:从零搭建你的第一个 AI Agent(附完整可运行代码) 手把手教你,用 Python 在 2 小时内构建一个能自主规划、调用工具、完成任务的 AI Agent 预计完成时间: 2 小时 所需技能: 基础 Python、会用命令行 适合人群: 想入门 AI Agent 开发的同学,不限工作年限 前言:为什么 2026 年你必须懂 Agent? 如果说 2024 年是大模型的元年,那 2026 年就是 AI Agent 的爆发年。 现在的 AI 已经不只是"聊天机器人"了——它开始接管我们的

Harness Engineering工程化教程(非常详细),AI Agent复杂长任务从入门到精通,收藏这一篇就够了!

Harness Engineering工程化教程(非常详细),AI Agent复杂长任务从入门到精通,收藏这一篇就够了!

Views are my own. “Yet Another Chapter”,Generated by Google Lyria OpenAI 的一个团队在五个月内用 Codex 写了一百万行代码,三个工程师平均每天合并 3.5 个 PR,没有一行代码是工程师手写的。Anthropic 的 Claude Code 能连续工作数天构建完整应用。LangChain 的 Coding Agent 在 Terminal Bench 2.0 上从 52.8% 跃升至 66.5%,却只改了 harness,模型没动。 随着 Coding Agent 能力过去一段时间的突飞猛进,软件工程师的工作变了:从“

终极Notion风格编辑器:AI智能写作的完整指南

终极Notion风格编辑器:AI智能写作的完整指南 【免费下载链接】novelNotion-style WYSIWYG editor with AI-powered autocompletion. 项目地址: https://gitcode.com/gh_mirrors/no/novel Novel是一个开源的Notion风格所见即所得编辑器,具有AI驱动的自动补全功能。这款编辑器专为现代写作体验设计,将Notion的优雅界面与人工智能的强大能力完美结合,让写作变得更加高效和智能。无论您是内容创作者、开发者还是普通用户,Novel都能为您提供前所未有的写作体验。 🚀 什么是Notion风格编辑器? Notion风格编辑器以其简洁直观的界面和强大的块编辑功能而闻名。Novel编辑器继承了这些优点,同时加入了AI智能写作功能,让您能够: * 快速创建各种内容块(文本、列表、标题等) * 享受流畅的拖放操作体验 * 使用AI辅助完成写作任务 Notion风格编辑器的直观界面展示 ✨ 核心功能特性 AI智能写作辅助 Novel最引人注目的功能就是AI驱动的自动补全