Stable Diffusion 多模态大模型 LoRA 微调实战指南 | 极客日志

PythonAI算法

Stable Diffusion 多模态大模型 LoRA 微调实战指南

综述由AI生成基于 LoRA 技术对 Stable Diffusion 多模态大模型进行微调的完整流程。内容包括数据收集与爬虫实现、训练环境配置、模型训练脚本参数详解、推理阶段 LoRA 权重的加载与动态调整，以及多 LoRA 模型融合的方法。通过具体代码示例展示了如何从原始模型出发，利用少量样本训练出特定风格的生成模型，并提供了常见问题排查与最佳实践建议，旨在帮助开发者在有限资源下高效完成定制化微调任务。

樱花落尽发布于 2025/2/7更新于 2026/6/227 浏览

Stable Diffusion 多模态大模型 LoRA 微调实战

LoRA (Low-Rank Adaptation) 是一种高效的参数微调技术。在训练 Stable Diffusion 时，首先冻结模型的权重，然后在 U-Net 结构中注入 LoRA 矩阵，将其与交叉注意力模块结合。微调时仅更新这部分低秩参数，从而大幅降低显存占用并加速收敛。

数据收集与准备

本次微调将使用数码宝贝数据集作为下游细分任务。Stable Diffusion 的训练数据格式直观，即一张图片对应一段文本描述。我们需要通过爬虫整理数据，包括名称、介绍和对应的图片链接，并按指定格式保存。

数据格式要求

{
  "file_name": "0001.png",
  "text": "image 1 description"
}

文件夹结构示例：

folder/train/metadata.jsonl # 存储 caption 描述
folder/train/0001.png
folder/train/0002.png
...

爬虫实现逻辑

为了实现数据收集，我们使用 Python 的 requests 库获取网页内容，并使用 BeautifulSoup 解析 HTML。分析发现，所有数码兽信息存在于 id 为 digimon_list 的 ul 列表中，每一行是一个 li 标签，包含详情链接。

具体步骤如下：

遍历页面中的 li 标签，提取数码兽名称和详情页面链接。
进入详情页面，获取数码兽的介绍和图片链接。
下载图片并保存到本地文件夹。
将文件名和描述文本整理成 JSONL 格式保存。

以下是核心代码示例：

import os
import json
import requests
from bs4 import BeautifulSoup

# 创建文件夹
data_dir = "./train"
if not os.path.exists(data_dir):
    os.makedirs(data_dir)

# 请求数码兽图鉴页面
url = "http://digimons.net/digimon/chn.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# 遍历所有的 li 标签
digimon_list = soup.find("ul", id="digimon_list")
for digimon  digimon_list.find_all():
    :
        
        name = digimon.find()[].split()[]
        detail_url =  + digimon.find()[]
        
        
        response = requests.get(detail_url)
        soup = BeautifulSoup(response.content, )
        caption = soup.find(, class_=).find().text.strip()
        img_url = 
        
        
        img_data = requests.get(img_url).content
        file_name = 
         (os.path.join(data_dir, file_name), )  f:
            f.write(img_data)
        
        
        metadata = {: file_name, : }
         (os.path.join(data_dir, ), )  f:
            f.write(json.dumps(metadata, ensure_ascii=) + )
     Exception  e:
        ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install git+https://github.com/huggingface/diffusers

accelerate config

accelerate launch --mixed_precision="fp16" train_text_to_image_lora.py \
   --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
   --train_data_dir="./train_data" \
   --dataloader_num_workers=0 \
   --resolution=512 --center_crop --random_flip \
   --train_batch_size=1 \
   --gradient_accumulation_steps=4 \
   --max_train_steps=15000 \
   --learning_rate=1e-04 \
   --max_grad_norm=1 \
   --lr_scheduler="cosine" --lr_warmup_steps=0 \
   --output_dir="./finetune/lora/digimon" \
   --checkpointing_steps=500 \
   --validation_prompt="Blue Agumon" \
   --seed=1024

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_path = "runwayml/stable-diffusion-v1-5"
LoRA_path = "./finetune/lora/digimon"  # 修改成本地 LoRA 模型路径

pipe = StableDiffusionPipeline.from_pretrained(model_path, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.unet.load_attn_procs(LoRA_path)
pipe.to("cuda")

# 生成图像
image = pipe("blue skin agumon", num_inference_steps=50).images[0]
image.save("test.png")

pipe.unet.load_attn_procs(lora_model_path)
pipe.to("cuda")
image = pipe(
    "A agumon with blue skin.", 
    num_inference_steps=25, 
    guidance_scale=7.5, 
    cross_attention_kwargs={"scale": 0.5}
).images[0]
image.save("blue_pokemon.png")

Stable Diffusion 多模态大模型 LoRA 微调实战指南

Stable Diffusion 多模态大模型 LoRA 微调实战

数据收集与准备

数据格式要求

爬虫实现逻辑

更多推荐文章

相关免费在线工具

数据集发布

训练参数设置

模型训练与测试

启动训练脚本

加载 LoRA 模型进行推理

权重调整与多 LoRA 融合

单个 LoRA 权重调整

多 LoRA 模型融合

常见问题与最佳实践

总结

更多推荐文章

相关免费在线工具

Stable Diffusion 多模态大模型 LoRA 微调实战指南

Stable Diffusion 多模态大模型 LoRA 微调实战

数据收集与准备

数据格式要求

爬虫实现逻辑

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据集发布

训练参数设置

模型训练与测试

启动训练脚本

加载 LoRA 模型进行推理

权重调整与多 LoRA 融合

单个 LoRA 权重调整

多 LoRA 模型融合

常见问题与最佳实践

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具