跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

PromptIR: 基于提示学习的通用盲图像复原网络

综述由AI生成PromptIR 提出一种基于提示学习的通用盲图像复原方法,旨在用单一模型处理去噪、去雨、去雾等多种退化任务。核心创新在于将退化类型作为可学习提示注入解码器,通过 Prompt Generation Module 动态生成条件提示,并结合 Prompt Interaction Module 实现特征融合。该方法无需退化先验或对比学习,参数量仅 26M。在多个公开测试集上,PSNR 优于 AirNet 等 SOTA 模型,且推理速度提升显著。消融实验验证了解码器单侧注入的最佳效果及泛化能力。

苹果系统发布于 2026/4/6更新于 2026/5/2426 浏览
PromptIR: 基于提示学习的通用盲图像复原网络

研究动机

研究目标

构建一个"All-in-One"盲图像复原网络,用单一模型、单次训练、无需先验地处理多种退化(去噪、去雨、去雾),并在各任务上均达到 SOTA 性能。

过去方法

  • 任务专用网络:DnCNN、MPRNet、Restormer 等,每类退化需独立模型,存储/部署成本高。
  • 早期 All-in-One:AirNet 用对比学习额外训练退化编码器,两阶段训练、参数量大,且对退化表征耦合严重。
  • 通用视觉 Transformer:SwinIR、Uformer 等需针对任务微调,没考虑过退化统一。

本文方法

核心思想:把'退化类型'当作可学习的轻量提示(prompt),在解码阶段动态注入网络,引导特征自适应恢复。 关键模块:

  • Prompt Generation Module (PGM):根据输入特征实时生成退化条件提示。
  • Prompt Interaction Module (PIM):将提示与图像特征做通道级拼接 + Transformer 融合,实现退化感知恢复。 整体为 4 级 U 型 Transformer,仅在解码器侧插入 3 个 Prompt Block,即插即用、端到端单阶段训练。

优势以及创新点

  1. 首个把提示学习引入低层视觉,用 <0.5% 的额外参数实现多任务统一。
  2. 无需退化先验或对比学习,训练友好。
  3. 在 denoising/deraining/dehazing 三大任务 6 个公开测试集上,平均 PSNR 比 AirNet 高 0.86 dB,最高领先 2.64 dB;参数量仅 26 M,推理速度提升 1.7×。
  4. Prompt Block 架构无关,可一键嵌入任意现有复原网络。

算法主要思想与原理详解

PromptIR 架构概述

  1. Prompt 架构整体就是在 Restormer 的架构基础上在每层采样之间加上了一个 Prompt Block 模块。

  2. 整体流程

    • 输入退化图 I ∈ R^(H×W×3)
    • 卷积提取浅层特征 F0
    • 4 级编码器(Transformer Block 数=[4,6,6,8])下采样到 1/8 分辨率
    • 解码器逐级上采样,每两级间插入 1 个 Prompt Block(共 3 个)
    • 输出复原图 Î
  3. Prompt Block 内部机制 (1) PGM:动态生成提示

    • Fl ∈ R^(Hi×Wi×C)
    • GAP → 向量 v ∈ R^C
    • 1×1 Conv 降维 → Softmax 得权重 w ∈ R^N(N=5 个 prompt components)
    • w 对可学习组件 Pc ∈ R^(N×H×W×C) 加权求和 → 输入条件提示 P

    (2) PIM:提示 - 特征交互

    • 通道拼接 → 送入标准 Transformer Block:
      • MDTA(Multi-Dconv Head Transposed Attention):在通道维计算自注意力,复杂度 O(C^2) 而非 O(HW^2),适合高分辨率。输出 Y = Wp·V·Softmax(K·Q/α)+X
      • GDFN(Gated-Dconv Feed-Forward):两路 1×1+3×3 深度卷积,一路 GeLU 激活后逐元乘,增强非线性且抑制噪声。
    • 3×3 Conv 输出增强特征 F̂l

实验结果

  1. 数据集
  2. 训练:BSD400+WED(denoising)、Rain100L(deraining)、SOTS-indoor(dehazing)合并,共约 7.7 万张 128×128 块。
  3. 测试:
    • BSD68、Urban100(denoising σ=15,25,50)
    • Rain100L(deraining)
    • SOTS-indoor(dehazing)
  4. 评价指标:PSNR (dB)、SSIM

定性实验

去雨场景下的性能对比

单任务专用模型再对比:

  • 去雾:PromptIR 31.31 dB,比 AirNet 高 8.13 dB,比 Restormer 高 0.44 dB。
  • 去雨:37.04 dB,比 AirNet 高 2.13 dB。
  • 去噪 σ=50:29.39 dB(Urban100),比 AirNet 高 0.51 dB。

去噪场景下的性能对比

定量结果(All-in-One 单模型)

全集成修复场景下的性能对比分析

去雾场景下的性能对比

图片去雨比较

图片去噪比较

  1. 去雾场景,PromptIR 彻底去除远处雾幕,建筑边缘无伪影;AirNet 有残留灰色雾墙。
  2. 去雨场景,雨丝密度高时,PromptIR 无条纹残留,车牌文字清晰;AirNet 可见轻微雨痕。
  3. 去噪 σ=50,纹理细节(砖缝、窗户)保持完整,无过度平滑。

消融实验

图片去雾比较

消融实验

  • 无 Prompt Block:平均 PSNR 降 0.38 dB。
  • 固定 Prompt:再降 0.19 dB。
  • Prompt 放在编码器 + 解码器:性能反而下降 0.92 dB,说明'解码器单侧注入'最佳。
  • 未见噪声水平 σ=35:AirNet 仅 13.64 dB,PromptIR 21.03 dB,差距 7.4 dB,验证泛化能力。

结论

PromptIR 首次把提示学习引入图像复原,用极轻量插件实现'一个模型、三种退化、盲设置'下的新 SOTA。未来工作将:

  1. 把 Prompt Block 拓展到更多退化(模糊、低分辨率、混合失真)以逼近'通用复原大模型'。
  2. 结合物理退化模型与对抗训练,进一步提升极端场景鲁棒性。

目录

  1. 研究动机
  2. 研究目标
  3. 过去方法
  4. 本文方法
  5. 优势以及创新点
  6. 算法主要思想与原理详解
  7. 实验结果
  8. 定性实验
  9. 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 Rokid AR 眼镜的会议议程管理助手开发
  • SkyWalking 多语言探针现状:.NET、C++ 与 Lua 支持分析
  • Python 数据分析入门:集中趋势与离散程度
  • 编写第一个 Rocket 0.5 Web 应用
  • AI 魔术师:基于视觉的增强现实特效
  • Python 数据分析全流程指南:从数据获取到可视化分析
  • VS Code 搭配 GitHub Copilot 实战指南:配置、交互与避坑
  • 算法的本质:现代视角下的深度解析
  • Eclipse IDE Java 注解处理器 AnnotationMirror 示例
  • Redis 高可用方案深度解析:从单点到集群
  • SpringBoot 整合 Neo4j 图数据库项目实战详解
  • AIGC 时代如何打造卓越的技术文档
  • 基于 LLM 的智能运维 Agent 系统设计与实现
  • Java Lambda 和匿名内部类为何不能修改外部变量?final 与等效 final 解析
  • FPGA 开发从入门到精通指南
  • n8n 自动化工作流平台实战指南:部署、汉化与案例解析
  • Meta-Llama-3-8B-Instruct 部署常见问题与解决方案
  • Python 在 Windows 上的安装与 PyCharm 配置指南
  • FPGA 实战:CAN 总线协议原理与 Verilog 实现
  • OpenClaw 配置 GLM-4.7 Flash 与 DuckDuckGo 实现飞书机器人联网问答

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online