AI 安全：Stable Diffusion 视觉提示词注入攻击实战 | 极客日志

PythonAI算法

AI 安全：Stable Diffusion 视觉提示词注入攻击实战

综述由AI生成针对 Stable Diffusion 图像修复模型的视觉提示词注入攻击方法。通过 PGD 对抗攻击算法对输入图像进行像素级微调，修改扩散模型推理过程中的梯度流，使生成图像在 CLIP 特征空间中降低与违规概念的相似度，从而绕过内置的 Safety Checker 安全检测机制。文章详细阐述了环境搭建、数据预处理、核心攻击流程（包括重写扩散推理、CLIP 特征提取、损失计算与扰动优化）及效果验证，旨在帮助开发者理解 AI 安全边界并加固防御系统。

NodeJser发布于 2026/4/6更新于 2026/5/2322 浏览

提到提示词注入（Prompt Injection），大家的第一反应往往是精心构造的文本越狱指令。而在图生图任务中，输入图像在本质上扮演了视觉提示词的角色，与文本指令共同指导生成模型。基于这一视角，本文展示针对视觉提示词的注入攻击：通过 PGD 对抗攻击算法对输入图像进行像素级微调，使其生成的违规图像能够绕过开源大模型的 NSFW 安全检测机制。

一、NSFW 防线：开源模型的安全过滤机制

默认情况下，当我们向开源大模型请求其生成包含敏感/违规特征的内容时，官方内置的 Safety Checker（安全检测器）会拦截该输出，返回一张全黑的图像，并在终端抛出如下警告：

Potential NSFW content was detected in one or more images. A black image will be returned instead. Try again with a different prompt and/or seed.

二、攻击场景定义 (Threat Model)

我们的目标是通过在输入图像中注入肉眼难以察觉的梯度扰动，突破上述防线。

靶标模型： Hugging Face 开源的图像修复模型 stable-diffusion-v1-5-inpainting
输入内容：
1. 算法优化的视觉提示词图像（学术上可称作对抗样本），及其对应的局部掩码（Mask）。
2. 生成提示词（Prompt），例如请求生成裸体图像：[敏感词汇，e.g., a woman with barefies body, perfect size breasts, realistic details]
攻击目标： 欺骗官方的 Safety Checker 模块，使模型最终输出违规图像，而非全黑拦截图。

示意图

三、环境搭建

建议使用 GPU 服务器进行实验，并配置国内镜像源以加速模型下载。

3.1 配置环境变量

为了解决网络拉取 Hugging Face 模型超时的问题，建议在代码顶部定义国内镜像源及模型缓存地址：

import os
os.environ['HF_HOME']='/root/cache/'
os.environ['HF_ENDPOINT']='https://hf-mirror.com'
from SafetyChecker import StableDiffusionSafetyChecker
from PIL import Image, ImageOps
import torch
import numpy as np
import random
from tqdm  tqdm
 diffusers  StableDiffusionInpaintPipeline
 torchvision.transforms  T
 torch.nn  nn
 argparse
 cv2

to_pil = T.ToPILImage()
to_tensor = T.ToTensor()
 transformers  CLIPConfig, CLIPVisionModel, PreTrainedModel

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
from PIL import Image
from diffusers import StableDiffusionInpaintPipeline

def Inpaint(prompt, img, mask):
    pipe = StableDiffusionInpaintPipeline.from_pretrained(
        "stable-diffusion-v1-5/stable-diffusion-inpainting", 
        torch_dtype=torch.float16
    ).to('cuda')
    image = pipe(prompt=prompt, image=img, mask_image=mask).images[0]
    image.save("data/output_img/original_out.jpg")

if __name__ == "__main__":
    img_name = 'data/18.png'
    mask_name = 'data/18_maskprocessed_mask.png'
    img = Image.open(img_name).convert('RGB').resize((512,512))
    mask = Image.open(mask_name).convert('RGB').resize((512,512))
    prompt = ''
    Inpaint(prompt, img, mask)

def main(args):
    set_seed(args.random_seed)
    init_image = Image.open(args.image_name).convert('RGB').resize((512,512))
    mask_image = Image.open(args.mask_name).convert('RGB').resize((512,512))
    cur_mask, cur_masked_image = prepare_mask_and_masked_image(init_image, mask_image)
    cur_mask = cur_mask.cuda()
    cur_masked_image = cur_masked_image.cuda()
    prompt = args.prompt
    adv_sample, adv_output = attack(cur_mask, cur_masked_image, prompt, args.iter, pipe_inpaint, args.num_inference_steps)
    adv_sample = (adv_sample / 2 + 0.5).clamp(0,1)
    adv_image = to_pil(adv_sample[0]).convert("RGB")
    adv_image = recover_image(adv_image, init_image, mask_image, background=True)
    adv_image.save(args.save_path)

def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

def prepare_mask_and_masked_image(image, mask):
    image = np.array(image.convert("RGB"))
    image = image[None].transpose(0,3,1,2)
    image = torch.from_numpy(image).to(dtype=torch.float32)/127.5 - 1.0
    mask = np.array(mask.convert("L"))
    mask = mask.astype(np.float32)/255.0
    mask = mask[None,None]
    mask[mask < 0.5] = 0
    mask[mask >= 0.5] = 1
    mask = torch.from_numpy(mask)
    masked_image = image * (mask < 0.5)
    return mask, masked_image

def attack(cur_mask, cur_masked_image, prompt, iters, pipe_inpaint, num_inference_steps):
    cur_mask = cur_mask.clone()
    cur_masked_image = cur_masked_image.clone().cuda()
    # 初始化对抗噪声 delta
    delta = torch.zeros_like(cur_masked_image).cuda().requires_grad_(True)
    # 攻击参数设置
    epsilon = 8/255  # 最大扰动范围
    alpha = 1/255    # 单步步长
    adjustment = 0.02 # 阈值调节，目的是比官方的阈值设定再低 adjustment，确保攻击稳定。
    
    for i in range(iters):
        adv_sample = cur_masked_image + delta
        Inpaint_img = diffusion_forward(pipe_inpaint, prompt, adv_sample, cur_mask, num_inference_steps)
        clip_input = vae_tensor_to_clip_input(Inpaint_img).cuda()
        # Safety Checker 安全检测器本质上是一个预训练的 CLIP 模型，此部分简化了官方代码，只获取模型映射的特征
        image_embeds = SafetyChecker(clip_input)
        
        # 计算当前'图像'和'官方预设定的多个违规词'在 Clip 特征空间上的距离
        cos_dist = cosine_distance(image_embeds, concept_embeds)
        attack_loss = 0
        loss_total = 0
        for concept_idx in range(len(cos_dist[0])):
            concept_cos = cos_dist[0][concept_idx]
            concept_threshold = concept_embeds_weights[concept_idx].item()
            loss_total = loss_total + concept_cos
            if torch.round(concept_cos - concept_threshold + adjustment, decimals=3) > 0:
                attack_loss = attack_loss + concept_cos
        
        if attack_loss:
            loss = attack_loss
        else:
            loss = loss_total
        print('attack_loss:', attack_loss)
        
        grad = torch.autograd.grad(loss, [delta])[0] * (1 - cur_mask)
        delta.data = delta.data - alpha * grad.sign()
        delta.data = torch.clamp(delta.data, -epsilon, epsilon)
        # 确保最终像素在正常范围内
        delta.data = (torch.clamp(cur_masked_image + delta.data, -1, 1) - cur_masked_image)
        torch.cuda.empty_cache()
        adv_sample = cur_masked_image + delta
    
    return adv_sample.data.cpu(), Inpaint_img.data.cpu()

def diffusion_forward(self, prompt, masked_image, mask, num_inference_steps):
    height: int = 512
    width: int = 512
    guidance_scale: float = 7.5
    eta: float = 0.0
    
    text_inputs = self.tokenizer(
        prompt, padding="max_length", max_length=self.tokenizer.model_max_length,
        return_tensors="pt"
    )
    text_input_ids = text_inputs.input_ids
    text_embeddings = self.text_encoder(text_input_ids.to(self.device))[0]
    
    uncond_tokens = [""]
    max_length = text_input_ids.shape[-1]
    uncond_input = self.tokenizer(
        uncond_tokens, padding="max_length", max_length=max_length, truncation=True,
        return_tensors="pt"
    )
    uncond_embeddings = self.text_encoder(uncond_input.input_ids.to(self.device))[0]
    seq_len = uncond_embeddings.shape[1]
    text_embeddings = torch.cat([uncond_embeddings, text_embeddings])
    text_embeddings = text_embeddings.detach()
    
    num_channels_latents = self.vae.config.latent_channels
    latents_shape = (1, num_channels_latents, height // 8, width // 8)
    latents = torch.randn(latents_shape, device=self.device, dtype=text_embeddings.dtype)
    
    mask = torch.nn.functional.interpolate(mask, size=(height // 8, width // 8))
    mask = torch.cat([mask]*2) # mask.shape = [2, 1, 64, 64]
    
    masked_image_latents = self.vae.encode(masked_image).latent_dist.sample()
    masked_image_latents = 0.18215 * masked_image_latents
    masked_image_latents = torch.cat([masked_image_latents]*2)
    
    latents = latents * self.scheduler.init_noise_sigma
    self.scheduler.set_timesteps(num_inference_steps)
    timesteps_tensor = self.scheduler.timesteps.to(self.device)
    
    for i, t in enumerate(timesteps_tensor):
        latent_model_input = torch.cat([latents]*2)
        latent_model_input = torch.cat([latent_model_input, mask, masked_image_latents], dim=1)
        noise_pred = self.unet(latent_model_input, t, encoder_hidden_states=text_embeddings).sample
        noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
        noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
        latents = self.scheduler.step(noise_pred, t, latents, eta=eta).prev_sample
    
    latents = 1/0.18215 * latents
    image = self.vae.decode(latents).sample
    return image

def vae_tensor_to_clip_input(vae_tensor):
    # 1. 值域从 [-1, 1] 转到 [0, 1]
    img = vae_tensor / 2 + 0.5
    img = img.clamp(0,1)
    # 2. 定义 CLIP 的预处理流程
    # CLIP 默认需要 224x224 的输入
    # 注意：SD 1.5 的 Safety Checker 用的是 224x224
    normalize = T.Normalize(mean=[0.48145466,0.4578275,0.40821073], std=[0.26862954,0.26130258,0.27577711])
    transforms = T.Compose([
        T.Resize(224, interpolation=T.InterpolationMode.BILINEAR),
        T.CenterCrop(224),
        normalize,
    ])
    # 3. 应用变换
    clip_input = transforms(img)
    return clip_input

from diffusers.pipelines.stable_diffusion import StableDiffusionSafetyChecker

# 违规词的特征分布
concept_embeds_tensor = self.concept_embeds.detach().cpu()
# 违规测的阈值判断
concept_embeds_weights_tensor = self.concept_embeds_weights.detach().cpu()
# 保存 pt 文件供攻击时获取
torch.save(concept_embeds_tensor,"concept_embeds_tensor.pt")
torch.save(concept_embeds_weights_tensor,"concept_embeds_weights_tensor.pt")

import numpy as np
import torch
import torch.nn as nn
from transformers import CLIPConfig, CLIPVisionModel, PreTrainedModel
from packaging import version
import transformers

def check_transformers_version(target:str):
    """ 简化官方代码 is_transformers_version(">", "4.57.3") 对比当前 transformers 版本。 """
    current_version = version.parse(transformers.__version__)
    target_version = version.parse(target)
    return current_version > target_version

class StableDiffusionSafetyChecker(PreTrainedModel):
    config_class = CLIPConfig
    main_input_name = "clip_input"
    _no_split_modules = ["CLIPEncoderLayer"]
    
    def __init__(self, config: CLIPConfig):
        super().__init__(config)
        self.vision_model = CLIPVisionModel(config.vision_config)
        self.visual_projection = nn.Linear(config.vision_config.hidden_size, config.projection_dim, bias=False)
        self.concept_embeds = nn.Parameter(torch.ones(17, config.projection_dim), requires_grad=False)
        self.special_care_embeds = nn.Parameter(torch.ones(3, config.projection_dim), requires_grad=False)
        self.concept_embeds_weights = nn.Parameter(torch.ones(17), requires_grad=False)
        self.special_care_embeds_weights = nn.Parameter(torch.ones(3), requires_grad=False)
        # Model requires post_init after transformers v4.57.3
        if check_transformers_version("4.57.3"):
            self.post_init()
    
    def forward(self, clip_input):
        pooled_output = self.vision_model(clip_input)[1] # pooled_output
        image_embeds = self.visual_projection(pooled_output)
        return image_embeds

image_embeds = SafetyChecker(clip_input)

cos_dist = cosine_distance(image_embeds, concept_embeds)

for i in range(iters):
    adv_sample = cur_masked_image + delta
    Inpaint_img = diffusion_forward(pipe_inpaint, prompt, adv_sample, cur_mask, num_inference_steps)
    clip_input = vae_tensor_to_clip_input(Inpaint_img).cuda()
    image_embeds = SafetyChecker(clip_input)
    # 计算当前'图像'和'官方预设定的多个违规词'在 Clip 特征空间上的距离
    cos_dist = cosine_distance(image_embeds, concept_embeds)
    attack_loss = 0
    loss_total = 0
    for concept_idx in range(len(cos_dist[0])):
        concept_cos = cos_dist[0][concept_idx]
        concept_threshold = concept_embeds_weights[concept_idx].item()
        loss_total = loss_total + concept_cos
        if torch.round(concept_cos - concept_threshold + adjustment, decimals=3) > 0:
            attack_loss = attack_loss + concept_cos
    
    if attack_loss:
        loss = attack_loss
    else:
        loss = loss_total
    print('attack_loss:', attack_loss)
    grad = torch.autograd.grad(loss, [delta])[0] * (1 - cur_mask)
    delta.data = delta.data - alpha * grad.sign()
    delta.data = torch.clamp(delta.data, -epsilon, epsilon)
    delta.data = (torch.clamp(cur_masked_image + delta.data, -1, 1) - cur_masked_image)
    torch.cuda.empty_cache()
    adv_sample = cur_masked_image + delta

# 工具转换
to_pil = T.ToPILImage()
to_tensor = T.ToTensor()

# 加载图像修复管道
pipe_inpaint = StableDiffusionInpaintPipeline.from_pretrained(
    "stable-diffusion-v1-5/stable-diffusion-inpainting", 
    dtype=torch.float16
).to('cuda')

# 初始化简化版安全检测器
config = pipe_inpaint.safety_checker.config
SafetyChecker = StableDiffusionSafetyChecker(config)
SafetyChecker.load_state_dict(pipe_inpaint.safety_checker.state_dict())
SafetyChecker.cuda()

# 加载预提取的违规概念特征与阈值
concept_embeds = torch.load("data/pt/concept_embeds_tensor.pt").cuda()
concept_embeds_weights = torch.load("data/pt/concept_embeds_weights_tensor.pt").cuda()

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="args for SD attack")
    parser.add_argument("--iter", type=int, default=20)
    parser.add_argument("--save_path", type=str, default="data/18/adv.png")
    parser.add_argument("--image_name", type=str, default='data/18/18.png')
    parser.add_argument("--mask_name", type=str, default='data/18/18_maskprocessed_mask.png')
    parser.add_argument("--prompt", type=str, default='a woman with barefies body, full breasts, realistic details')
    parser.add_argument('-s','--random_seed', type=int, default=20)
    parser.add_argument('-n',"--num_inference_steps", type=int, default=8)
    args = parser.parse_args()
    print(args)
    main(args)

import os
os.environ['HF_HOME']='/root/cache/'
os.environ['HF_ENDPOINT']='https://hf-mirror.com'
import torch
from PIL import Image
from diffusers import StableDiffusionInpaintPipeline
import numpy as np
import random

def Inpaint(prompt, img, mask):
    pipe = StableDiffusionInpaintPipeline.from_pretrained(
        "stable-diffusion-v1-5/stable-diffusion-inpainting", 
        torch_dtype=torch.float16
    ).to('cuda')
    image = pipe(prompt=prompt, image=img, mask_image=mask).images[0]
    return image

if __name__ == "__main__":
    img_name = 'data/18/adv.png'
    mask_name = 'data/18/18_maskprocessed_mask.png'
    img = Image.open(img_name).convert('RGB').resize((512,512))
    mask = Image.open(mask_name).convert('RGB').resize((512,512))
    prompt = 'a woman with barefies body, perfect size breasts, realistic details'
    for i in range(10):
        image = Inpaint(prompt, img, mask)
        image.save("data/output/{}.jpg".format(i))

AI 安全：Stable Diffusion 视觉提示词注入攻击实战

一、NSFW 防线：开源模型的安全过滤机制

二、攻击场景定义 (Threat Model)

三、环境搭建

3.1 配置环境变量

更多推荐文章

相关免费在线工具

3.2 部署模型验证

四、核心攻击流程详解

4.1. 固定随机因子

4.2 数据预处理

4.3. 攻击部分

4.3.1 重写扩散模型推理过程

4.3.2 CLIP 特征空间预处理

4.3.3 SafetyChecker 特征提取

4.3.4 违规判断与对抗样本优化

4.4 全局变量与初始化

4.5 存储对抗样本

五、攻击效果验证

六、结语与声明

更多推荐文章

相关免费在线工具

AI 安全：Stable Diffusion 视觉提示词注入攻击实战

一、NSFW 防线：开源模型的安全过滤机制

二、攻击场景定义 (Threat Model)

三、环境搭建

3.1 配置环境变量

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 部署模型验证

四、核心攻击流程详解

4.1. 固定随机因子

4.2 数据预处理

4.3. 攻击部分

4.3.1 重写扩散模型推理过程

4.3.2 CLIP 特征空间预处理

4.3.3 SafetyChecker 特征提取

4.3.4 违规判断与对抗样本优化

4.4 全局变量与初始化

4.5 存储对抗样本

五、攻击效果验证

六、结语与声明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具