本地部署阿里开源文生图大模型 Z-Image
一、环境准备
Z-Image 是阿里最新开源的文生图大模型。参考仓库:https://github.com/Tongyi-MAI/Z-Image
cd /data4/
conda create -n zimage python=3.10
conda activate zimage
# 安装 diffusers,建议从源码安装
pip install git+https://github.com/huggingface/diffusers.git
# 检查 CUDA 版本并安装对应 PyTorch
nvcc --version
# 示例:CUDA 12.1
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu121
# 安装 transformers
pip install transformers
由于模型开源时间较短,文档可能不够完善,环境配置过程需仔细核对。
二、下载模型
HuggingFace 模型下载可能需要网络代理,此处推荐通过 ModelScope 下载。
pip install modelscope
modelscope download --model Tongyi-MAI/Z-Image-Turbo
下载目录通常位于 /root/.cache/modelscope/hub/models/Tongyi-MAI/Z-Image-Turbo。
三、代码示例
以下脚本用于生成指定内容的图片。
import torch
from diffusers import ZImagePipeline
# 1. 加载 Pipeline
pipe = ZImagePipeline.from_pretrained(
"/root/.cache/modelscope/hub/models/Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False
)
pipe.to("cuda")
prompt = """
深蓝色科技感背景,中央居中放置一个现代扁平化风格的播放器图标,图标右方清晰显示文字:"zwplayer",使用无衬线科技字体,白色发光效果。图标正上方横向排列大号加粗文字:"让视频播放更简单",其中"让视频播放"的字体为蓝色,'更'为黄色字体,'简单'为蓝色字体,轻微投影增强可读性。图标周围以极简线条和微光粒子构成抽象数据流动视觉,象征'全协议、易集成、多功能、低延时、零成本'五大特性,每个特性以小型标签形式环绕图标分布,分别标注:"全协议"、"易集成"、"多功能"、"低延时"、"零成本",字体为浅灰色半透明白色描边。页面底部右侧角落放置标识,文字内容为:"示例标识",使用较小字号,置于半透明黑色圆角矩形底板上,确保清晰可辨。整体构图对称,光影柔和,突出中央主体,无多余装饰元素。
"""
# 2. 生成图片
image = pipe(
prompt=prompt,
height=720,
width=1280,
num_inference_steps=9,
guidance_scale=0.0,
generator=torch.Generator("cuda").manual_seed(42),
).images[]
image.save()


