RMBG-2.0 接入 Stable Diffusion 工作流实现图像生成与抠图合成
为什么抠图成了 AI 图像工作流的'卡点'?
在 Stable Diffusion 生成角色立绘后,背景处理常成为瓶颈。手动 PS 耗时且 AI 在线工具存在隐私泄露风险,边缘处理效果不佳(如毛发、透明材质)。RMBG-2.0(BiRefNet)作为高精度、低延迟、零隐私风险的抠图引擎,可无缝嵌入本地 AI 图像工作流,对接 SD WebUI、ComfyUI 及 Python 脚本,实现'生成→抠图→合成→再生成'闭环。
本文介绍从单图一键抠图到批量接入 Stable Diffusion 工作流的全流程,支持透明 PNG 导出、自动合成新背景及驱动 ControlNet。全程本地运行,不传图、不联网、不依赖 API。
RMBG-2.0 到底强在哪?不是'快',而是'准得自然'
1. 它不是普通抠图,是 BiRefNet 架构下的语义级分离
RMBG-2.0 基于开源 SOTA 模型 BiRefNet(Bilateral Refinement Network),核心能力包括:
- 双向校准分割边界,理解主体与背景关系;
- 对半透明材质、复杂毛发、细小结构有远超传统 U-Net 的建模能力;
- 通过双路径特征融合,在 1024×1024 输入尺度下保留亚像素级边缘过渡。
实测对比典型难例:
- 人像戴眼镜:完整保留镜片通透感,镜框边缘锐利;
- 宠物白猫:毛发根根分明,无晕染或块状丢失;
- 透明饮料瓶:瓶身折射自然,气泡区域准确识别;
- 手工刺绣:绣线立体感保留,背景布纹平滑去除;
- 风中薄纱裙:纱质通透层次清晰,无粘连或断裂。
2. 本地化设计:从'能跑'到'好用'的关键跨越
- 预处理与还原完全对齐训练逻辑:原始图等比缩放至长边≤1024,填充至 1024×1024;推理后蒙版精准映射回原始尺寸,绝不拉伸、裁剪或失真;
- GPU 加速默认配置:自动检测 CUDA 环境,启用 cudnn.benchmark=True,RTX 4090 单图处理(2000×3000 人像)仅需 0.83 秒;
- Streamlit 界面设计:双列布局专注输入输出,蒙版查看采用可折叠扩展栏,下载文件名固定方便脚本调用。
最重要的是:不联网、不上传、不调用外部服务,素材全程本地存储。
从单图工具到工作流枢纽:如何接入 Stable Diffusion?
1. WebUI 插件模式(适合 SD WebUI 用户)
已有开源 rmbg-webui 插件,安装后在 SD WebUI 顶部菜单新增「RMBG」选项卡:
- 支持直接拖拽生成图进入插件窗口,一键抠图;
- 抠图结果自动缓存为 PNG,显示'合成新背景'按钮;
- 点击后弹出背景选择面板:可选纯色、渐变、SD 生成图或本地图;
- 合成后支持调整混合模式和透明度,实时预览;
- 最终结果可一键发送至 SD WebUI 的 img2img 画布,继续重绘或风格迁移。
实测案例:用 SD 生成'古风女子站在竹林前',抠图后合成纯黑背景 → 发送至 img2img → 使用 Inpaint 模型局部重绘竹叶细节 → 输出高清海报图。全流程无需切换软件、不保存中间文件。
2. ComfyUI 节点集成(适合进阶用户与自动化)
通过 rmbg-comfy-node 自定义节点,RMBG-2.0 成为 ComfyUI 工作流中的标准组件:
{
"class_type": "RMBGNode",

