Python的AI大模型之runwayml/stable-diffusion-v1-5介绍与使用


🖼️ 1. runwayml/stable-diffusion-v1-5 是干啥的?

它是一个文生图(Text-to-Image)AI 模型,输入一段文字提示 Prompt,就能生成对应风格、内容的图像。

典型用途:

✔ 生成艺术插画
✔ 生成产品设计图
✔ 生成动漫风人物
✔ 生成建筑、工业设计概念图
✔ 做 AI 绘画工具的基础模型
✔ 图像扩散、修图、风格迁移、补图、扩图等功能


🏢 2. 由谁开发?

  • 开发方:Stability AI + RunwayML 合作
  • 发布年份:2022 年底
  • 模型基于:Stable Diffusion 1.x 系列

RunwayML 是一家专注于创作者工具的 AI 公司
Stability AI 则是 Stable Diffusion 系列模型的主要研发者。

runwayml/stable-diffusion-v1-5 是 Stable Diffusion 1.5 的官方托管 checkpoint


🧠 3. 它的功能和特点(非常详细)

✔ 文生图(Text → Image)

输入一句话生成图:

“a cat wearing sunglasses sitting on a cyberpunk motorcycle”

✔ 图生图(Image → Image,img2img)

使用一张图片+Prompt 来生成新的变化图。

✔ 图像修复(Inpainting)

你给一张图+mask,它可以补画被挖空的部分。

✔ 可控扩散(ControlNet 支持)

可以用姿势图、边缘图、深度图约束生成内容。

✔ 可调节分辨率

默认 512×512,可生成 768×768、1024×1024(显存越大越好)。

✔ 模型可 LoRA 微调

支持训练角色、风格、IP 角色形象。


🆚 4. 和其他模型区别?

模型类型功能备注
Helsinki-NLP/opus-mt-zh-en翻译模型中英互翻完全不是绘图模型
runwayml/stable-diffusion-v1-5文生图模型绘画、修图AI 图像生成主力模型
SDXL 1.0更强模型分辨率更高、效果更逼真2023 新一代
SD 1.5经典模型风格更开放、LoRA 多2022–2024 都很流行

你的项目如果是:

  • 翻译文本 → 选 opus-mt
  • 生成图像 → 选 stable-diffusion-v1-5

两者完全不同领域。


🧪 5. stable-diffusion-v1-5 的技术底层(简单理解)

  • 属于 扩散模型(Diffusion Model)
  • 基于 Latent Diffusion(图像先压缩到 latent,再扩散采样)
  • UNet + VAE 架构
  • 使用 2 亿+ 图片训练(LAION-5B 数据集筛选)
  • 需要显卡 ★最低 4GB 显存(CPU 也能跑但很慢)★

🧰 6. 用 Python 调用 stable-diffusion-v1-5(标准示例)

使用 Hugging Face diffusers(最主流方式)

📌 6.1 安装依赖

pip install diffusers transformers accelerate safetensors torch 

⚠ 如果你用 GPU(推荐),你需要正确安装 CUDA 版本 torch:

(Windows 示例)

pip install torch --index-url https://download.pytorch.org/whl/cu121 

📌 6.2 文生图最简代码(Text → Image)

from diffusers import StableDiffusionPipeline import torch # 加载模型 pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda")# 如果无GPU则改为 "cpu" prompt ="a cute cat wearing sunglasses, cyberpunk style, high detail"# 推理 image = pipe(prompt).images[0]# 保存 image.save("output.png")

运行后,你会获得 output.png。


📌 6.3 增强版:控制分辨率、步骤数、种子

image = pipe( prompt, num_inference_steps=30,# 步数(越高越细致但越慢) guidance_scale=7.5,# 越大越听 prompt(通常7-10) width=768, height=768, generator=torch.manual_seed(42)# 固定种子,保持一致输出).images[0] image.save("cat2.png")

📌 6.4 图生图(img2img)

from diffusers import StableDiffusionImg2ImgPipeline from PIL import Image pipe = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") init_image = Image.open("input.jpg").convert("RGB") prompt ="cyberpunk style, neon lights" image = pipe(prompt=prompt, image=init_image, strength=0.7).images[0] image.save("output_img2img.png")

📌 6.5 Inpainting(修复图像)

from diffusers import StableDiffusionInpaintPipeline from PIL import Image pipe = StableDiffusionInpaintPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") image = Image.open("image.png") mask = Image.open("mask.png")# 白色表示要补的区域 result = pipe( prompt="a beautiful background with flowers", image=image, mask_image=mask ).images[0] result.save("inpaint.png")

🧩 7. 适用场景总结

场景能力
AI 绘画生成
角色卡风格训练强(LoRA)
产品设计草图生成
二次元插画
写实风格中等(SDXL 更强)
翻译/文本理解❌(不能翻译)
视频生成❌(不是视频模型)

7.1 模型下载本地

如果需要将模型下载到本地可以看我写的另一篇文章。
基于python的huggingface_hub库实现通用下载大模型存放到本地

🏁 总结

runwayml/stable-diffusion-v1-5:

  • ✔ AI 绘画模型(不是翻译模型)
  • ✔ 稳定、经典、最流行的基础模型
  • ✔ 由 Stability AI + RunwayML 联合开发
  • ✔ 支持文生图、图生图、修图、扩图
  • ✔ 可使用 diffusers 库轻松用 Python 调用

Read more

【无人机避障算法核心技术】:揭秘五种主流算法原理与实战应用场景

第一章:无人机避障算法概述 无人机避障算法是实现自主飞行的核心技术之一,其目标是在复杂环境中实时感知障碍物,并规划安全路径以避免碰撞。随着传感器技术和计算能力的提升,避障系统已从简单的距离检测发展为融合多源信息的智能决策体系。 避障系统的基本组成 典型的无人机避障系统包含以下关键模块: * 感知模块:利用激光雷达、超声波、立体视觉或RGB-D相机获取环境数据 * 数据处理模块:对原始传感器数据进行滤波、特征提取和障碍物识别 * 决策与规划模块:基于环境模型生成避障轨迹,常用算法包括A*、Dijkstra、RRT和动态窗口法(DWA) 常见避障算法对比 算法优点缺点适用场景A*路径最优,搜索效率高高维空间计算开销大静态环境全局规划DWA实时性强,适合动态避障局部最优风险室内低速飞行RRT*渐进最优,适应复杂空间收敛速度慢三维未知环境 基于深度学习的避障方法示例 近年来,端到端神经网络被用于直接从图像生成控制指令。以下是一个简化的行为克隆模型推理代码片段: import torch import torchvision.transforms as tran

【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

目录 一、Neo4j图数据库 1、neo4j 安装 - mac brew版 2、neo4j 快速入门 3、neo4j 基本操作 (1)增操作 (2)查操作 (3)改操作 (4)删操作 4、安装py2neo 二、数据预处理 1、数据清洗 2、知识建模 (1)识别实体 (2)识别实体属性 (3)识别关系 三、搭建知识图谱 博主的数据集是用的自己的数据集,大家练习时可以在网上找一个数据量小的数据集练手。 一、Neo4j图数据库         Neo4j 是一个高性能的、原生的图数据库。它不采用传统的行和列的表格结构,而是使用节点和关系的图结构来存储和管理数据。 1、neo4j

SpringBoot + Low-Code + JSON 表单引擎:5 分钟配置一套审批流,告别重复 CRUD

前言 在企业级应用开发中,审批流是一个高频需求。无论是请假申请、费用报销,还是采购审批,都需要一套完整的表单和流程系统。传统开发模式下,每个审批流都需要单独开发表单页面、验证逻辑、数据存储和流程控制,不仅耗时耗力,还容易出现重复造轮子的情况。今天,我将和大家分享一个基于SpringBoot的低代码表单引擎解决方案,通过JSON配置,实现5分钟配置一套审批流,彻底告别重复的CRUD开发。 原文链接 为什么需要低代码表单引擎? 1. 开发效率问题 传统审批流开发需要经历以下步骤: * 设计表单UI界面 * 实现前端交互逻辑 * 开发后端API接口 * 编写数据验证逻辑 * 集成工作流引擎 * 实现审批节点配置 * 部署和测试 整个过程可能需要几天甚至几周时间,而且每个新流程都要重复这些步骤。 2. 维护成本高昂 随着业务发展,表单字段经常需要调整,流程节点需要变更,每次修改都需要开发人员介入,增加了维护成本和响应时间。 3. 业务人员参与度低 业务人员无法直接参与表单和流程的设计,只能被动接受开发结果,导致最终产品与实际需求存在偏差。 核心技术方案

智元机器人三大产线

智元机器人三大产线

执行摘要 2025 年 12 月 8 日,智元机器人迎来了具有里程碑意义的时刻 —— 第 5000 台通用具身机器人在上海临港工厂正式量产下线。这一成就标志着中国具身智能产业从技术验证阶段全面迈入规模商用时代。智元机器人通过三年的快速发展,已建立起远征、灵犀、精灵三大产品矩阵,累计出货 5000 台,其中远征 A1/A2 下线 1742 台,灵犀 X1/X2 下线 1846 台,精灵 G1/G2 下线 1412 台(3)。 在技术层面,智元机器人实现了多项重大突破。其自主研发的 PowerFlow 关节电机峰值扭矩超过 350N・m,重量仅 1.6kg,采用准直驱技术方案,相较传统谐波减速器方案成本降低