本地部署阿里开源文生图大模型 Z-Image

一、环境准备

Z-Image 是阿里最新开源的文生图大模型。参考仓库：https://github.com/Tongyi-MAI/Z-Image

cd /data4/
conda create -n zimage python=3.10
conda activate zimage

# 安装 diffusers，建议从源码安装
pip install git+https://github.com/huggingface/diffusers.git

# 检查 CUDA 版本并安装对应 PyTorch
nvcc --version
# 示例：CUDA 12.1
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装 transformers
pip install transformers

由于模型开源时间较短，文档可能不够完善，环境配置过程需仔细核对。

二、下载模型

HuggingFace 模型下载可能需要网络代理，此处推荐通过 ModelScope 下载。

pip install modelscope
modelscope download --model Tongyi-MAI/Z-Image-Turbo

下载目录通常位于 /root/.cache/modelscope/hub/models/Tongyi-MAI/Z-Image-Turbo。

三、代码示例

以下脚本用于生成指定内容的图片。

import torch
from diffusers import ZImagePipeline

# 1. 加载 Pipeline
pipe = ZImagePipeline.from_pretrained(
    "/root/.cache/modelscope/hub/models/Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False
)
pipe.to("cuda")

prompt = """
深蓝色科技感背景，中央居中放置一个现代扁平化风格的播放器图标，图标右方清晰显示文字："zwplayer"，使用无衬线科技字体，白色发光效果。图标正上方横向排列大号加粗文字："让视频播放更简单"，其中"让视频播放"的字体为蓝色，'更'为黄色字体，'简单'为蓝色字体，轻微投影增强可读性。图标周围以极简线条和微光粒子构成抽象数据流动视觉，象征'全协议、易集成、多功能、低延时、零成本'五大特性，每个特性以小型标签形式环绕图标分布，分别标注："全协议"、"易集成"、"多功能"、"低延时"、"零成本"，字体为浅灰色半透明白色描边。页面底部右侧角落放置标识，文字内容为："示例标识"，使用较小字号，置于半透明黑色圆角矩形底板上，确保清晰可辨。整体构图对称，光影柔和，突出中央主体，无多余装饰元素。
"""

# 2. 生成图片
image = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=9,
    guidance_scale=0.0,
    generator=torch.Generator("cuda").manual_seed(),
).images[]
image.save()

本地部署阿里开源文生图大模型 Z-Image

本地部署阿里开源文生图大模型 Z-Image

一、环境准备

二、下载模型

三、代码示例

更多推荐文章

相关免费在线工具

四、测试运行

五、效果与总结

更多推荐文章

相关免费在线工具

本地部署阿里开源文生图大模型 Z-Image

本地部署阿里开源文生图大模型 Z-Image

一、环境准备

二、下载模型

三、代码示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、测试运行

五、效果与总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具