Python的AI大模型之runwayml/stable-diffusion-v1-5介绍与使用


🖼️ 1. runwayml/stable-diffusion-v1-5 是干啥的?

它是一个文生图(Text-to-Image)AI 模型,输入一段文字提示 Prompt,就能生成对应风格、内容的图像。

典型用途:

✔ 生成艺术插画
✔ 生成产品设计图
✔ 生成动漫风人物
✔ 生成建筑、工业设计概念图
✔ 做 AI 绘画工具的基础模型
✔ 图像扩散、修图、风格迁移、补图、扩图等功能


🏢 2. 由谁开发?

  • 开发方:Stability AI + RunwayML 合作
  • 发布年份:2022 年底
  • 模型基于:Stable Diffusion 1.x 系列

RunwayML 是一家专注于创作者工具的 AI 公司
Stability AI 则是 Stable Diffusion 系列模型的主要研发者。

runwayml/stable-diffusion-v1-5 是 Stable Diffusion 1.5 的官方托管 checkpoint


🧠 3. 它的功能和特点(非常详细)

✔ 文生图(Text → Image)

输入一句话生成图:

“a cat wearing sunglasses sitting on a cyberpunk motorcycle”

✔ 图生图(Image → Image,img2img)

使用一张图片+Prompt 来生成新的变化图。

✔ 图像修复(Inpainting)

你给一张图+mask,它可以补画被挖空的部分。

✔ 可控扩散(ControlNet 支持)

可以用姿势图、边缘图、深度图约束生成内容。

✔ 可调节分辨率

默认 512×512,可生成 768×768、1024×1024(显存越大越好)。

✔ 模型可 LoRA 微调

支持训练角色、风格、IP 角色形象。


🆚 4. 和其他模型区别?

模型类型功能备注
Helsinki-NLP/opus-mt-zh-en翻译模型中英互翻完全不是绘图模型
runwayml/stable-diffusion-v1-5文生图模型绘画、修图AI 图像生成主力模型
SDXL 1.0更强模型分辨率更高、效果更逼真2023 新一代
SD 1.5经典模型风格更开放、LoRA 多2022–2024 都很流行

你的项目如果是:

  • 翻译文本 → 选 opus-mt
  • 生成图像 → 选 stable-diffusion-v1-5

两者完全不同领域。


🧪 5. stable-diffusion-v1-5 的技术底层(简单理解)

  • 属于 扩散模型(Diffusion Model)
  • 基于 Latent Diffusion(图像先压缩到 latent,再扩散采样)
  • UNet + VAE 架构
  • 使用 2 亿+ 图片训练(LAION-5B 数据集筛选)
  • 需要显卡 ★最低 4GB 显存(CPU 也能跑但很慢)★

🧰 6. 用 Python 调用 stable-diffusion-v1-5(标准示例)

使用 Hugging Face diffusers(最主流方式)

📌 6.1 安装依赖

pip install diffusers transformers accelerate safetensors torch 

⚠ 如果你用 GPU(推荐),你需要正确安装 CUDA 版本 torch:

(Windows 示例)

pip install torch --index-url https://download.pytorch.org/whl/cu121 

📌 6.2 文生图最简代码(Text → Image)

from diffusers import StableDiffusionPipeline import torch # 加载模型 pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda")# 如果无GPU则改为 "cpu" prompt ="a cute cat wearing sunglasses, cyberpunk style, high detail"# 推理 image = pipe(prompt).images[0]# 保存 image.save("output.png")

运行后,你会获得 output.png。


📌 6.3 增强版:控制分辨率、步骤数、种子

image = pipe( prompt, num_inference_steps=30,# 步数(越高越细致但越慢) guidance_scale=7.5,# 越大越听 prompt(通常7-10) width=768, height=768, generator=torch.manual_seed(42)# 固定种子,保持一致输出).images[0] image.save("cat2.png")

📌 6.4 图生图(img2img)

from diffusers import StableDiffusionImg2ImgPipeline from PIL import Image pipe = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") init_image = Image.open("input.jpg").convert("RGB") prompt ="cyberpunk style, neon lights" image = pipe(prompt=prompt, image=init_image, strength=0.7).images[0] image.save("output_img2img.png")

📌 6.5 Inpainting(修复图像)

from diffusers import StableDiffusionInpaintPipeline from PIL import Image pipe = StableDiffusionInpaintPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") image = Image.open("image.png") mask = Image.open("mask.png")# 白色表示要补的区域 result = pipe( prompt="a beautiful background with flowers", image=image, mask_image=mask ).images[0] result.save("inpaint.png")

🧩 7. 适用场景总结

场景能力
AI 绘画生成
角色卡风格训练强(LoRA)
产品设计草图生成
二次元插画
写实风格中等(SDXL 更强)
翻译/文本理解❌(不能翻译)
视频生成❌(不是视频模型)

7.1 模型下载本地

如果需要将模型下载到本地可以看我写的另一篇文章。
基于python的huggingface_hub库实现通用下载大模型存放到本地

🏁 总结

runwayml/stable-diffusion-v1-5:

  • ✔ AI 绘画模型(不是翻译模型)
  • ✔ 稳定、经典、最流行的基础模型
  • ✔ 由 Stability AI + RunwayML 联合开发
  • ✔ 支持文生图、图生图、修图、扩图
  • ✔ 可使用 diffusers 库轻松用 Python 调用

Read more

801-203_各无人机厂家对RemoteID支持情况汇总

1. 大疆DJI 参考链接:大疆无人机RemoteID支持情况 DJI航拍无人机的RID广播信息包含以下信息: 1. ID等身份认证 2. 无人机的纬度、经度、几何高度和速度 3. 控制站的纬度、经度和几何高度的指示 4. 时间信息、紧急状态信息 支持RID的航拍无人机型号 大疆无人机支持RID型号列表 序号无人机机型支持情况备注1DJI Mavic 4 Pro支持2DJI Flip支持3DJI Air 3S支持4DJI Neo支持WIFI直连模式下和脱控模式下不支持5DJI Mini 4K支持V01.07.0400 及以后6DJI Avata 2V01.00.0300 及以后7DJI Mini 4 Pro支持V01.00.0400 及以后8DJI Air 3支持V01.00.1200 及以后9DJI Mini 3支持V01.

By Ne0inhk
树莓派4B连接大疆M300无人机全网最细教程

树莓派4B连接大疆M300无人机全网最细教程

注:本教程适用于树莓派4B连接大疆M300_RTK无人机,若是其余型号可以参考本文思路,但是具体细节请前往官方教程或大疆开发者论坛查找,第三方开发板连接大疆无人机,不同型号之间会有很多细节差异,请确认自己的型号然后针对性查找 官方教程网址:Payload SDK (官方的是树莓派4B连接M350!并非M300,实现细节完全不同,请慎重查看) 大疆开发者论坛网址:Payload SDK – 大疆创新SDK技术支持论坛 (优点:几乎能找到所有问题的解决方法;缺点:太零散了,找解决方法如同大海捞针) 1 硬件准备 1.1 硬件选型 * 无人机型号:M300_RTKM300顶部一共有三个接口,其中OSDK端口和云台口(Payload SDK Port)可以用来运行PSDK程序,TypeC调参口,则是用来与电脑连接,打开DJI Assistant2软件后,可以升级无人机固件,导出日志,使用模拟器,绑定负载等。 1.FPV摄像头13.左视和右视红外感知系统25.调参接口2.前视红外感知系统14.

By Ne0inhk
地瓜机器人智慧医疗——贰贰玖想要分享的关于使用惯导的一些思路

地瓜机器人智慧医疗——贰贰玖想要分享的关于使用惯导的一些思路

前言 在第20届全国大学生智能车竞赛(智慧医疗机器人创意赛)中,我们贰贰玖拿下国一。在这里,作为队长兼技术主力兼机师兼……我想分享一下在备赛过程中的一些思路。当然,为了不把比赛搞成全都是20s以内,竞争激烈到前后几名差0.几秒,我不会开源我们的惯导和避障思路(实在太简单,太容易实现了)。 这是我们两年的备赛日记,也有我们第二年区域赛和国赛的全流程。 【贰贰玖|从省三到国一,从巡线到路径规划到惯导+纯视觉避障的贰贰玖智能车日记-哔哩哔哩】 https://b23.tv/IDJyM2P 数据集我放在这里了,一共2w9张,全都是640x480,有数据增强的(没有旋转):https://pan.baidu.com/s/10u4S4fiVATRyEeDpdzpk_A?pwd=0229 提取码:0229 下面面我会讲一下我们的网络问题怎么解决,上位机的一些辅助处理,如何半场扫码,如何准确返回 P 点,修改stm32,以及修改车的ekf.yaml。

By Ne0inhk

Stable-Diffusion-v1-5-archive性能压测报告:QPS/延迟/显存占用三维度实测

Stable-Diffusion-v1-5-archive性能压测报告:QPS/延迟/显存占用三维度实测 想了解一个AI模型到底“快不快”、“稳不稳”、“贵不贵”?光看功能介绍可不够。今天,我们就拿经典的Stable Diffusion v1.5 Archive模型开刀,进行一次全方位的性能“体检”。我们将从三个核心维度——每秒处理能力(QPS)、响应延迟和显存占用——来实测它的表现,看看这个老牌文生图模型在今天的技术环境下,究竟实力如何。 1. 压测目标与方法论 在开始之前,我们先明确这次压测要回答的几个关键问题: 1. 极限性能:在单张GPU上,这个模型最高能承受多大的并发请求压力? 2. 响应速度:从用户提交请求到拿到图片,平均需要等待多久? 3. 资源消耗:运行这个服务,到底需要吃掉多少显存?成本高不高? 4. 稳定性:在高负载下,服务会不会崩溃?生成质量会不会下降? 为了回答这些问题,我们设计了一套压测方案。测试环境基于一台配备了单张NVIDIA RTX

By Ne0inhk