论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

论文阅读 PromptIR: Prompting for All-in-One Blind Image Restoration

作者:Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang

机构:Mohamed bin Zayed University of AI, Linköping University

来源期刊:NeurIPS

发表时间:2023年
 

一、研究动机

        1.研究目标


        构建一个“All-in-One”盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。

        2.过去方法


        任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
         早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
        通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。

         3.本文方法      


        核心思想:把“退化类型”当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。
关键模块:
        Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
        Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。
        整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。

        4.优势以及创新点


        ① 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
        ② 无需退化先验或对比学习,训练友好。
        ③ 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
        ④ Prompt Block 架构无关,可一键嵌入任意现有复原网络。

二、算法主要思想与原理详解

PromptIR架构概述
  1. Prompt 架构整体就是在Restormer 的架构基础上在每层采样之间加上了一个Prompt Block模块。
  2. 整体流程
    输入退化图 I ∈ R^(H×W×3)
    → 卷积提取浅层特征 F0
    → 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
    → 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
    → 输出复原图 Î

        3.Prompt Block 内部机制
        (1) PGM:动态生成提示
        Fl ∈ R^(Hi×Wi×C)
        → GAP → 向量 v ∈ R^C
        → 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
        → w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P

        (2) PIM:提示-特征交互
           通道拼接 → 送入标准 Transformer Block:
        – MDTA(Multi-Dconv Head Transposed Attention)
          在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。
          输出 Y = Wp·V·Softmax(K·Q/α)+X
        – GDFN(Gated-Dconv Feed-Forward)
          两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
        → 3×3 Conv 输出增强特征 F̂l

三、实验结果

  1. 数据集
  2. 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张128×128块。
  3. 测试:
    – BSD68、Urban100(denoising σ=15,25,50)
    – Rain100L(deraining)
    – SOTS-indoor(dehazing)
  4. 评价指标
    PSNR (dB) 、SSIM 

四.定性试验​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​

去雨场景下的性能对比

单任务专用模型再对比:
 去雾:PromptIR 31.31 dB,比 AirNet 高 8.13 dB,比 Restormer 高 0.44 dB。
 去雨:37.04 dB,比 AirNet 高 2.13 dB。
 去噪 σ=50:29.39 dB(Urban100),比 AirNet 高 0.51 dB。 

去噪场景下的性能对比

定量结果(All-in-One 单模型)

全集成修复场景下的性能对比分析
去雾场景下的性能对比
图片去雨比较
图片去噪比较
  1.  去雾场景,PromptIR 彻底去除远处雾幕,建筑边缘无伪影;AirNet 有残留灰色雾墙。
     去雨场景,雨丝密度高时,PromptIR 无条纹残留,车牌文字清晰;AirNet 可见轻微雨痕。
     去噪 σ=50,纹理细节(砖缝、窗户)保持完整,无过度平滑。
  2. 消融实验
图片去雾比较
消融实验

        无 Prompt Block:平均 PSNR 降 0.38 dB。  固定 Prompt:再降 0.19 dB。 Prompt 放在编码器+解码器:性能反而下降 0.92 dB,说明“解码器单侧注入”最佳。  未见噪声水平 σ=35:AirNet 仅 13.64 dB,PromptIR 21.03 dB,差距 7.4 dB,验证泛化能力。

五、结论

PromptIR 首次把提示学习引入图像复原,用极轻量插件实现“一个模型、三种退化、盲设置”下的新 SOTA。未来工作将:

  1. 把 Prompt Block 拓展到更多退化(模糊、低分辨率、混合失真)以逼近“通用复原大模型”
  2. 结合物理退化模型与对抗训练,进一步提升极端场景鲁棒性

Read more

AI提示词管理工具AiShort

AI提示词管理工具AiShort

简介 什么是 AiShort? AiShort (原名 ChatGPT Shortcut) 是一个精选的 AI 提示词库,能帮助用户更高效地使用大语言模型(LLM),例如 ChatGPT。它内置了大量经过优化和筛选的提示词,覆盖写作、编程、学术、求职等多种场景。用户只需一键复制,即可获得高质量的 AI 回复,极大地提升了工作和学习效率。 主要特点 * 精选提示词库:内置上百个专业、实用的提示词,并持续更新。 * 智能搜索与过滤:通过关键词搜索或标签分类,快速定位你需要的提示词。 * 多语言支持:所有提示词均已翻译成十多种主流语言,方便不同母语的用户使用。 * 一键复制:简化操作流程,点击即可复制提示词,直接粘贴到任何 AI 对话窗口。 * 无需注册:用户无需注册即可立即开始使用,方便快捷。 * 我的收藏(高级功能):用户可以保存喜欢的提示,并进行排序和自定义标签管理。 * 导出功能:支持将所有提示导出为

我用 Nexent 做了个 AI 大厨:基于 Nexent 知识库与 MCP 生态打造智能烹饪顾问实战

我用 Nexent 做了个 AI 大厨:基于 Nexent 知识库与 MCP 生态打造智能烹饪顾问实战

引言:厨房小白的自救之路 说实话,我是一个对做饭既向往又恐惧的人。向往的是那些短视频里色香味俱全的家常菜,恐惧的是每次打开冰箱,站在一堆食材面前完全不知道能做什么。我的做饭流程通常是这样的:先在 B 站搜教程视频,边看边暂停边做,一顿饭下来手机屏幕被油溅得惨不忍睹。更糟糕的是,我家还有一位对海鲜过敏的室友和一位需要控糖的老妈,每次做饭都得在脑子里疯狂计算"这个能不能放""那个谁不能吃"。 上个月,我在 GitHub 上看到了 Nexent——一个"零编排"的开源智能体平台,主打"一个提示词,无限种可能"。我当时脑子里就冒出一个想法:能不能做一个懂食材搭配、会根据季节推荐菜谱、还能照顾家人饮食禁忌的 AI 烹饪顾问? 说干就干。我花了一个周末的时间,在 Nexent 上亲手搭建了一个名叫"AI

AI入门第一课:人工智能基础概念全解析 - 从零开始理解这个改变世界的技术

AI入门第一课:人工智能基础概念全解析 - 从零开始理解这个改变世界的技术

目录 * 为什么要了解人工智能? * 什么是人工智能?从图灵测试说起 * 人工智能的三次浪潮:从幻想到现实 * 第一次浪潮:符号主义的黄金时代 * 第二次浪潮:机器学习的崛起 * 第三次浪潮:深度学习的革命 * 机器学习的三大范式:监督学习、无监督学习和强化学习 * 监督学习:有老师指导的学习 * 无监督学习:自己发现规律的学习 * 强化学习:通过试错来学习 * 深度学习:模仿人脑的神经网络 * 神经网络的基本结构 * 从感知机到深度神经网络 * 卷积神经网络:专门为图像设计的网络 * 循环神经网络:处理序列数据的高手 * 人工智能的应用领域:改变世界的力量 * 医疗健康:AI医生的崛起 * 自动驾驶:重新定义出行方式 * 金融科技:智能理财的新时代 * 教育培训:个性化学习的新模式 * 娱乐媒体:内容创作的新可能 * 人工智能的局限性和挑战:理性看待AI * 数据依赖:AI的"食粮"问题 * 可解释性:

微信终于开放官方 Bot API!ClawBot 插件深度解析,AI 开发者的新机遇

微信终于开放官方 Bot API!ClawBot 插件深度解析,AI 开发者的新机遇

⚡⚡⚡ 欢迎预览,批评指正⚡⚡⚡ 文章目录 * 一、历史性时刻:微信开放官方 Bot API * 二、插件概况:什么是 ClawBot? * 2.1 官方定位 * 2.2 核心能力 * 三、技术亮点:iLink 协议深度解析 * 3.1 协议概览 * 3.2 认证机制 * 3.3 长轮询机制 * 3.4 消息结构 * 3.5 回复机制(关键!) * 3.6 CDN 媒体加密 * 四、启用插件:5 分钟快速上手 * 4.1 前置条件 * 4.