Python的AI大模型之runwayml/stable-diffusion-v1-5介绍与使用

Ne0inhk

20 Mar 2026 — 4 min read

🖼️ 1. runwayml/stable-diffusion-v1-5 是干啥的？

它是一个文生图（Text-to-Image）AI 模型，输入一段文字提示 Prompt，就能生成对应风格、内容的图像。

典型用途：

✔ 生成艺术插画
✔ 生成产品设计图
✔ 生成动漫风人物
✔ 生成建筑、工业设计概念图
✔ 做 AI 绘画工具的基础模型
✔ 图像扩散、修图、风格迁移、补图、扩图等功能

🏢 2. 由谁开发？

开发方：Stability AI + RunwayML 合作
发布年份：2022 年底
模型基于：Stable Diffusion 1.x 系列

RunwayML 是一家专注于创作者工具的 AI 公司
Stability AI 则是 Stable Diffusion 系列模型的主要研发者。

runwayml/stable-diffusion-v1-5 是 Stable Diffusion 1.5 的官方托管 checkpoint。

🧠 3. 它的功能和特点（非常详细）

✔ 文生图（Text → Image）

输入一句话生成图：

“a cat wearing sunglasses sitting on a cyberpunk motorcycle”

✔ 图生图（Image → Image，img2img）

使用一张图片+Prompt 来生成新的变化图。

✔ 图像修复（Inpainting）

你给一张图+mask，它可以补画被挖空的部分。

✔ 可控扩散（ControlNet 支持）

可以用姿势图、边缘图、深度图约束生成内容。

✔ 可调节分辨率

默认 512×512，可生成 768×768、1024×1024（显存越大越好）。

✔ 模型可 LoRA 微调

支持训练角色、风格、IP 角色形象。

🆚 4. 和其他模型区别？

模型	类型	功能	备注
Helsinki-NLP/opus-mt-zh-en	翻译模型	中英互翻	完全不是绘图模型
runwayml/stable-diffusion-v1-5	文生图模型	绘画、修图	AI 图像生成主力模型
SDXL 1.0	更强模型	分辨率更高、效果更逼真	2023 新一代
SD 1.5	经典模型	风格更开放、LoRA 多	2022–2024 都很流行

你的项目如果是：

翻译文本 → 选 opus-mt
生成图像 → 选 stable-diffusion-v1-5

两者完全不同领域。

🧪 5. stable-diffusion-v1-5 的技术底层（简单理解）

属于 扩散模型（Diffusion Model）
基于 Latent Diffusion（图像先压缩到 latent，再扩散采样）
UNet + VAE 架构
使用 2 亿+ 图片训练（LAION-5B 数据集筛选）
需要显卡 ★最低 4GB 显存（CPU 也能跑但很慢）★

🧰 6. 用 Python 调用 stable-diffusion-v1-5（标准示例）

使用 Hugging Face diffusers（最主流方式）

📌 6.1 安装依赖

pip install diffusers transformers accelerate safetensors torch

⚠ 如果你用 GPU（推荐），你需要正确安装 CUDA 版本 torch：

（Windows 示例）

pip install torch --index-url https://download.pytorch.org/whl/cu121

📌 6.2 文生图最简代码（Text → Image）

from diffusers import StableDiffusionPipeline import torch # 加载模型 pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda")# 如果无GPU则改为 "cpu" prompt ="a cute cat wearing sunglasses, cyberpunk style, high detail"# 推理 image = pipe(prompt).images[0]# 保存 image.save("output.png")

运行后，你会获得 output.png。

📌 6.3 增强版：控制分辨率、步骤数、种子

image = pipe( prompt, num_inference_steps=30,# 步数（越高越细致但越慢） guidance_scale=7.5,# 越大越听 prompt（通常7-10） width=768, height=768, generator=torch.manual_seed(42)# 固定种子，保持一致输出).images[0] image.save("cat2.png")

📌 6.4 图生图（img2img）

from diffusers import StableDiffusionImg2ImgPipeline from PIL import Image pipe = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") init_image = Image.open("input.jpg").convert("RGB") prompt ="cyberpunk style, neon lights" image = pipe(prompt=prompt, image=init_image, strength=0.7).images[0] image.save("output_img2img.png")

📌 6.5 Inpainting（修复图像）

from diffusers import StableDiffusionInpaintPipeline from PIL import Image pipe = StableDiffusionInpaintPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") image = Image.open("image.png") mask = Image.open("mask.png")# 白色表示要补的区域 result = pipe( prompt="a beautiful background with flowers", image=image, mask_image=mask ).images[0] result.save("inpaint.png")

🧩 7. 适用场景总结

场景	能力
AI 绘画生成	强
角色卡风格训练	强（LoRA）
产品设计草图生成	强
二次元插画	强
写实风格	中等（SDXL 更强）
翻译/文本理解	❌（不能翻译）
视频生成	❌（不是视频模型）

7.1 模型下载本地

如果需要将模型下载到本地可以看我写的另一篇文章。
基于python的huggingface_hub库实现通用下载大模型存放到本地

🏁 总结

runwayml/stable-diffusion-v1-5：

✔ AI 绘画模型（不是翻译模型）
✔ 稳定、经典、最流行的基础模型
✔ 由 Stability AI + RunwayML 联合开发
✔ 支持文生图、图生图、修图、扩图
✔ 可使用 diffusers 库轻松用 Python 调用

801-203_各无人机厂家对RemoteID支持情况汇总

1. 大疆DJI 参考链接：大疆无人机RemoteID支持情况 DJI航拍无人机的RID广播信息包含以下信息： 1. ID等身份认证 2. 无人机的纬度、经度、几何高度和速度 3. 控制站的纬度、经度和几何高度的指示 4. 时间信息、紧急状态信息支持RID的航拍无人机型号大疆无人机支持RID型号列表序号无人机机型支持情况备注1DJI Mavic 4 Pro支持2DJI Flip支持3DJI Air 3S支持4DJI Neo支持WIFI直连模式下和脱控模式下不支持5DJI Mini 4K支持V01.07.0400 及以后6DJI Avata 2V01.00.0300 及以后7DJI Mini 4 Pro支持V01.00.0400 及以后8DJI Air 3支持V01.00.1200 及以后9DJI Mini 3支持V01.

树莓派4B连接大疆M300无人机全网最细教程

注：本教程适用于树莓派4B连接大疆M300_RTK无人机，若是其余型号可以参考本文思路，但是具体细节请前往官方教程或大疆开发者论坛查找，第三方开发板连接大疆无人机，不同型号之间会有很多细节差异，请确认自己的型号然后针对性查找官方教程网址：Payload SDK (官方的是树莓派4B连接M350！并非M300，实现细节完全不同，请慎重查看) 大疆开发者论坛网址：Payload SDK – 大疆创新SDK技术支持论坛 (优点：几乎能找到所有问题的解决方法；缺点：太零散了，找解决方法如同大海捞针) 1 硬件准备 1.1 硬件选型 * 无人机型号：M300_RTKM300顶部一共有三个接口，其中OSDK端口和云台口（Payload SDK Port）可以用来运行PSDK程序，TypeC调参口，则是用来与电脑连接，打开DJI Assistant2软件后，可以升级无人机固件，导出日志，使用模拟器，绑定负载等。 1.FPV摄像头13.左视和右视红外感知系统25.调参接口2.前视红外感知系统14.

地瓜机器人智慧医疗——贰贰玖想要分享的关于使用惯导的一些思路

前言在第20届全国大学生智能车竞赛（智慧医疗机器人创意赛）中，我们贰贰玖拿下国一。在这里，作为队长兼技术主力兼机师兼……我想分享一下在备赛过程中的一些思路。当然，为了不把比赛搞成全都是20s以内，竞争激烈到前后几名差0.几秒，我不会开源我们的惯导和避障思路（实在太简单，太容易实现了）。这是我们两年的备赛日记，也有我们第二年区域赛和国赛的全流程。【贰贰玖|从省三到国一，从巡线到路径规划到惯导+纯视觉避障的贰贰玖智能车日记-哔哩哔哩】 https://b23.tv/IDJyM2P 数据集我放在这里了，一共2w9张，全都是640x480，有数据增强的（没有旋转）：https://pan.baidu.com/s/10u4S4fiVATRyEeDpdzpk_A?pwd=0229 提取码:0229 下面面我会讲一下我们的网络问题怎么解决，上位机的一些辅助处理，如何半场扫码，如何准确返回 P 点，修改stm32，以及修改车的ekf.yaml。

Stable-Diffusion-v1-5-archive性能压测报告：QPS/延迟/显存占用三维度实测

Stable-Diffusion-v1-5-archive性能压测报告：QPS/延迟/显存占用三维度实测想了解一个AI模型到底“快不快”、“稳不稳”、“贵不贵”？光看功能介绍可不够。今天，我们就拿经典的Stable Diffusion v1.5 Archive模型开刀，进行一次全方位的性能“体检”。我们将从三个核心维度——每秒处理能力（QPS）、响应延迟和显存占用——来实测它的表现，看看这个老牌文生图模型在今天的技术环境下，究竟实力如何。 1. 压测目标与方法论在开始之前，我们先明确这次压测要回答的几个关键问题： 1. 极限性能：在单张GPU上，这个模型最高能承受多大的并发请求压力？ 2. 响应速度：从用户提交请求到拿到图片，平均需要等待多久？ 3. 资源消耗：运行这个服务，到底需要吃掉多少显存？成本高不高？ 4. 稳定性：在高负载下，服务会不会崩溃？生成质量会不会下降？为了回答这些问题，我们设计了一套压测方案。测试环境基于一台配备了单张NVIDIA RTX