Stable Diffusion WebUI 中 DeepDanbooru 动漫标签自动生成指南 | 极客日志

PythonAI算法

Stable Diffusion WebUI 中 DeepDanbooru 动漫标签自动生成指南

介绍在 Stable Diffusion WebUI 环境中集成 DeepDanbooru 实现动漫标签自动生成的方法。涵盖 Docker 与本地部署方式、参数调优策略、批量处理脚本及性能优化技巧。通过自动化标签提取与 Prompt 生成，提升 AI 绘画创作效率与质量，适用于个人创作及企业级图像生成流程。

接口猎人发布于 2026/4/5更新于 2026/5/2831 浏览

Stable Diffusion WebUI 中的 DeepDanbooru 动漫标签自动化实践

在 AI 绘画领域，精准描述复杂动漫画面是创作痛点。DeepDanbooru 能自动分析图像内容，输出高度结构化的二次元风格标签（Tags），从发色、服饰到构图特征一应俱全。当与 Stable Diffusion 3.5 FP8 这类模型结合时，可实现高质量内容的高效生产。

本文介绍 SD WebUI 环境下 DeepDanbooru 的集成与优化，基于 SD3.5-FP8 模型，探讨从部署、参数调优到批量自动化的工作流设计。

为什么是 DeepDanbooru？专属于二次元的视觉语言解析器

不同于通用图像识别模型，DeepDanbooru 的核心优势在于其训练数据来源——Danbooru 图站数百万张带有精细标注的动漫图像。这些标签覆盖人物属性（如'蓝发双马尾'）、服装细节（'哥特风褶边裙'）、动作姿态（'侧身跳跃'）乃至艺术风格（'赛璐珞渲染'），形成了一个高度专业化的语义体系。

更重要的是，它的输出格式天然适配 Stable Diffusion 的 Prompt 结构。例如：

1girl, solo, long hair, blue hair, yellow eyes, school uniform, pleated skirt, white shirt, red ribbon, smiling, looking_at_viewer

这类序列化标签可直接作为正向提示词输入，显著增强模型对复杂场景的理解能力。尤其在处理多角色互动、特定服装组合或小众审美风格时，人工难以穷举的细节往往能被 DeepDanbooru 准确捕捉。

SD3.5-FP8 加持下的协同增效

将 DeepDanbooru 部署于 Stable Diffusion 3.5 FP8 环境，形成了一套性能与精度兼顾的技术栈：

特性	效果
FP8 量化推理	主模型显存占用降至 7–8GB，推理速度提升 40%+
共享运行时环境	DeepDanbooru 可复用相同的 GPU 上下文，减少切换开销
高分辨率支持	支持 1024×1024 输入图像分析，保留更多细节信息

这使得在消费级显卡（如 RTX 3060/4090）上也能流畅完成'图像分析 → 标签生成 → 高清出图'的完整流程。

快速部署：两种主流安装方式详解

方式一：Docker 一键启动（推荐用于生产环境）

对于追求稳定性和隔离性的用户，官方提供的 Docker 镜像是首选方案。它预装了 FP8 支持所需的全部依赖，避免本地环境冲突。

docker pull stabilityai/stable-diffusion-3.5-fp8:latest
docker run -it \
 --gpus all \
 -p 7860:7860 \
 -v ./models:/app/models \
 -v ./outputs:/app/outputs \
 stabilityai/stable-diffusion-3.5-fp8 \
 --listen --enable-insecure-extension-access --api

该命令会自动挂载本地 models 和 outputs 目录，便于后续管理模型和结果文件。容器启动后访问 http://localhost:7860 即可进入 WebUI 界面。

⚠️ 注意事项：

首次运行需确保有足够磁盘空间（至少 15GB）

若网络受限，建议提前下载 .safetensors 模型并放入对应路径

启动参数中 --api 是启用外部调用的关键，不可省略

方式二：本地 WebUI 集成（适合调试与定制）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd stable-diffusion-webui # 下载 FP8 模型
wget -O models/Stable-diffusion/stable-diffusion-3.5-fp8.safetensors \
 https://huggingface.co/stabilityai/stable-diffusion-3.5-large/resolve/main/sd3.5_large_fp8.safetensors
# 启动服务（启用 API 与扩展权限）
./webui.sh --precision fp8 --listen --api --enable-insecure-extension-access

mkdir -p models/torch_deepdanbooru
wget -O models/torch_deepdanbooru/model-resnet_custom_v3.pt \
 https://github.com/AUTOMATIC1111/TorchDeepDanbooru/releases/download/v1/model-resnet_custom_v3.pt

参数名	推荐值	作用
`score_threshold`	`0.35–0.6`	控制标签置信度阈值，过滤低概率项
`use_spaces`	`True`	将下划线替换为空格（如 `blue_hair` → `blue hair`），提高可读性
`escape`	`True`	转义括号、冒号等特殊字符，防止语法错误
`sort_alpha`	`False`	保持按置信度排序，而非字母顺序
`return_ranks`	`False`	关闭概率输出，仅返回纯净标签串

import cv2
import numpy as np
from PIL import Image

def calculate_complexity(image: Image.Image) -> float:
    """基于边缘密度估算图像复杂度"""
    gray = cv2.cvtColor(np.array(image), COLOR_RGB2GRAY)
    edges = cv2.Canny(gray, 100, 200)
    return np.sum(edges) / (image.width * image.height)

def get_dynamic_threshold(image: Image.Image, base=0.5):
    complexity = calculate_complexity(image)
    if complexity > 60: # 复杂构图
        return max(0.3, base - 0.15)
    elif complexity < 20: # 简洁画面
        return min(0.7, base + 0.15)
    return base

rating:general rating:sensitive artist_name comic manga

.*text.* chibi.* underwear

1girl, solo, long hair, blue hair, yellow eyes, school uniform, pleated skirt, white shirt, red ribbon, smiling, looking_at_viewer

(masterpiece, best quality), 1girl, blue hair, school uniform, (smiling:1.2), [city_background:0.8]

import os
from PIL import Image
from modules import shared
from modules.deepbooru import deepbooru_model

INPUT_DIR = "input_images"
OUTPUT_DIR = "output_tags"
os.makedirs(OUTPUT_DIR, exist_ok=True)

if not hasattr(shared, 'deepbooru') or shared.deepbooru is None:
    shared.deepbooru = deepbooru_model.DeepDanbooru()
    shared.deepbooru.load()
    shared.deepbooru.start()

for filename in os.listdir(INPUT_DIR):
    path = os.path.join(INPUT_DIR, filename)
    if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.webp')):
        try:
            img = Image.open(path).convert("RGB")
            tags = shared.deepbooru.tag(img)
            txt_path = os.path.join(OUTPUT_DIR, f"{os.path.splitext(filename)[0]}.txt")
            with open(txt_path, "w", encoding="utf-8") as f:
                f.write(tags)
            print(f"[✓] Processed: {filename}")
        except Exception as e:
            print(f"[✗] Failed: {filename} | Error: {str(e)}")

shared.deepbooru.stop()

python batch_interrogate.py

import requests
import base64
import os
from io import BytesIO
from PIL import Image

API_URL = "http://localhost:7860/sdapi/v1/interrogate"

def interrogate_image(image_path, threshold=0.45):
    with Image.open(image_path) as img:
        buf = BytesIO()
        img.save(buf, format='PNG')
        img_b64 = base64.b64encode(buf.getvalue()).decode('utf-8')
        payload = {
            "image": img_b64,
            "model": "deepdanbooru",
            "threshold": threshold
        }
        response = requests.post(API_URL, json=payload)
        if response.status_code == 200:
            return response.json().get("caption", "")
        else:
            raise Exception(f"API Error: {response.text}")

# 批量处理
for name in os.listdir("input_images"):
    path = os.path.join("input_images", name)
    if path.lower().endswith(('.png', '.jpg')):
        try:
            tags = interrogate_image(path, threshold=0.4)
            with open(f"tags/{name}.txt", "w") as f:
                f.write(tags)
        except Exception as e:
            print(f"Error processing {name}: {e}")

平台	推荐参数
NVIDIA GPU	`--xformers --precision fp8`
Apple Silicon	`--use-metal-performance-shaders`
AMD GPU (Windows)	`--backend directml`
CPU Only	`--use-cpu all --opt-split-attention`

# 修改前
self.model.load_state_dict(torch.load(model_path, map_location="cpu"))

# 修改后
if torch.cuda.is_available():
    self.model = self.model.half().cuda() # 使用 FP16 加速

pic = images.resize_image(2, pil_image, 384, 384) # 原默认为 512

if hasattr(torch, 'compile'):
    self.model = torch.compile(self.model)

import hashlib
import os
CACHE_DIR = "cache/deepbooru"

def cached_tag(dd_model, image: Image.Image):
    os.makedirs(CACHE_DIR, exist_ok=True)
    img_bytes = image.tobytes()
    key = hashlib.md5(img_bytes).hexdigest()
    cache_file = os.path.join(CACHE_DIR, f"{key}.txt")
    if os.path.exists(cache_file):
        with open(cache_file, "r") as f:
            return f.read()
    tags = dd_model.tag(image)
    with open(cache_file, "w") as f:
        f.write(tags)
    return tags

问题现象	可能原因	解决方案
标签为空或极少	阈值过高 / 图像非动漫风格	降低阈值至 0.3；确认为二次元图像
错误识别为 `1girl`	模型误判风景图为人物	提高阈值 + 添加 `solo`, `1girl` 到 filter.txt
`ModuleNotFoundError: tqdm`	依赖缺失	`pip install tqdm`
`CUDA out of memory`	显存不足	启用 Low VRAM 模式或改用 CPU
模型无法下载	GitHub 访问受限	手动下载 `.pt` 文件并放入指定目录
API 返回 404	未启用 API	启动时添加 `--api` 参数

(masterpiece, best quality), 1girl, blue hair, futuristic armor, glowing eyes, sci-fi background, {{tags_from_deepbooru}}

input/
  chara1.png
  chara2.png
→ output/
  chara1.txt
  chara2.txt

Stable Diffusion WebUI 中 DeepDanbooru 动漫标签自动生成指南

Stable Diffusion WebUI 中的 DeepDanbooru 动漫标签自动化实践

为什么是 DeepDanbooru？专属于二次元的视觉语言解析器

SD3.5-FP8 加持下的协同增效

快速部署：两种主流安装方式详解

方式一：Docker 一键启动（推荐用于生产环境）

方式二：本地 WebUI 集成（适合调试与定制）

更多推荐文章

相关免费在线工具

DeepDanbooru 安装与验证

自动安装流程

手动部署（适用于无网环境）

参数调优：如何生成更精准的标签？

核心参数说明

动态阈值策略：根据图像复杂度智能调整

自定义过滤规则：剔除冗余与干扰标签

实战应用：从单图分析到批量自动化

单张图像标签提取（基础操作）

批量处理方案一：本地 Python 脚本

批量处理方案二：通过 API 远程调用

性能优化：让标签生成更快更强

硬件加速建议

提速技巧三连击

缓存机制：避免重复计算浪费资源

常见问题排查指南

高级整合：打通全流程创作链路

与 ControlNet 联动实现风格迁移

用于 Textual Inversion 训练的数据准备

技术演进方向与生态展望

更多推荐文章

相关免费在线工具

Stable Diffusion WebUI 中 DeepDanbooru 动漫标签自动生成指南

Stable Diffusion WebUI 中的 DeepDanbooru 动漫标签自动化实践

为什么是 DeepDanbooru？专属于二次元的视觉语言解析器

SD3.5-FP8 加持下的协同增效

快速部署：两种主流安装方式详解

方式一：Docker 一键启动（推荐用于生产环境）

方式二：本地 WebUI 集成（适合调试与定制）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

DeepDanbooru 安装与验证

自动安装流程

手动部署（适用于无网环境）

参数调优：如何生成更精准的标签？

核心参数说明

动态阈值策略：根据图像复杂度智能调整

自定义过滤规则：剔除冗余与干扰标签

实战应用：从单图分析到批量自动化

单张图像标签提取（基础操作）

批量处理方案一：本地 Python 脚本

批量处理方案二：通过 API 远程调用

性能优化：让标签生成更快更强

硬件加速建议

提速技巧三连击

缓存机制：避免重复计算浪费资源

常见问题排查指南

高级整合：打通全流程创作链路

与 ControlNet 联动实现风格迁移

用于 Textual Inversion 训练的数据准备

技术演进方向与生态展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具