NewBie-image-Exp0.1从零开始：Python调用大模型生成图片教程

Ne0inhk

23 Mar 2026 — 10 min read

NewBie-image-Exp0.1从零开始：Python调用大模型生成图片教程

你是否也曾经被那些精美的动漫角色图吸引，却苦于不会画画？或者想快速生成一批风格统一的角色素材，但手动设计成本太高？今天我们要聊的这个工具，或许能彻底改变你的创作方式。

NewBie-image-Exp0.1 是一个专注于高质量动漫图像生成的大模型项目。它不仅具备强大的视觉表现力，还引入了独特的 XML 提示词机制，让你可以像写代码一样精确控制每一个角色的属性。更棒的是，现在有一个预配置好的镜像版本，省去了繁琐的环境搭建和依赖安装过程，真正实现“开箱即用”。

本文将带你一步步上手使用这个镜像，从最基础的运行测试脚本，到理解其核心功能，再到如何自定义提示词来生成你想要的画面。无论你是AI绘画的新手，还是有一定经验的技术爱好者，都能在这篇文章中找到实用的信息。

1. 镜像简介与核心优势

NewBie-image-Exp0.1 并不是一个简单的开源项目打包，而是一个经过深度优化和修复的完整推理环境。它的最大价值在于解决了原项目部署过程中常见的三大难题：环境冲突、源码Bug 和模型下载困难。

1.1 为什么选择这个镜像？

在没有预置镜像的情况下，部署类似项目通常需要花费数小时甚至更久。你需要手动安装特定版本的 PyTorch、Diffusers、Transformers 等库，稍有不慎就会遇到版本不兼容的问题。更麻烦的是，原始代码中可能存在一些未修复的 Bug，比如浮点数索引错误或张量维度不匹配，这些问题对新手来说排查起来非常困难。

而这个镜像已经帮你完成了所有这些工作：

所有依赖库都已按正确版本安装
源码中的已知 Bug 已被自动修补
核心模型权重（包括 VAE、CLIP、Transformer）均已提前下载并放置在指定目录
整个环境基于 Python 3.10 + PyTorch 2.4 + CUDA 12.1 构建，确保性能最优

这意味着你不需要再为“为什么跑不起来”而烦恼，可以直接进入“怎么用得更好”的阶段。

1.2 模型能力概览

该镜像搭载的是基于 Next-DiT 架构 的 3.5B 参数量级大模型。这类架构在图像生成任务中表现出色，尤其擅长处理复杂结构和细节丰富的画面。对于动漫风格图像而言，它能够稳定输出高分辨率、色彩鲜明且角色特征清晰的作品。

更重要的是，该模型支持一种创新的输入方式——XML 结构化提示词。不同于传统文本提示词容易出现角色属性混淆的问题（例如两个角色的发色互换），XML 格式允许你明确地为每个角色定义独立的属性集合，从而大幅提升多角色生成的准确性。

2. 快速启动：三步生成第一张图

让我们马上动手，看看如何用最简单的方式生成第一张图片。整个过程只需要三个步骤，总共不到一分钟。

2.1 进入容器并切换目录

假设你已经成功拉取并启动了该镜像的 Docker 容器，首先进入交互式终端：

docker exec -it <container_name> /bin/bash

然后切换到项目主目录：

cd /workspace/NewBie-image-Exp0.1

这里 /workspace 是镜像默认的工作空间路径，NewBie-image-Exp0.1 是项目根目录。

2.2 运行测试脚本

接下来执行内置的测试脚本：

python test.py

这个脚本会加载预训练模型，解析默认提示词，并开始生成一张分辨率为 1024×1024 的动漫风格图像。整个过程在 16GB 显存的 GPU 上大约需要 90 秒左右。

2.3 查看生成结果

运行完成后，你会在当前目录下看到一个名为 success_output.png 的文件。这就是你的第一张由 AI 生成的动漫图像！

你可以通过 scp、rsync 或容器挂载的方式将这张图片导出到本地查看。如果一切顺利，你应该能看到一个画风精致、细节丰富的角色形象，说明环境已经正常工作。

小贴士：如果你希望快速验证多次生成效果，可以修改 test.py 中的 num_images_per_prompt 参数，一次性生成多张图片进行对比。

3. 深入使用：掌握 XML 提示词语法

虽然普通的自然语言提示词也能生成不错的图像，但要想充分发挥 NewBie-image-Exp0.1 的潜力，就必须学会使用它的特色功能——XML 结构化提示词。

3.1 什么是 XML 提示词？

传统的提示词通常是这样写的：

"a girl with blue hair and twin tails, anime style, high quality"

这种方式简单直接，但在面对多个角色时很容易出现属性错乱。比如你想画两个女孩，一个蓝发一个红发，AI 可能会把两人的特征混合在一起。

而 XML 提示词则通过结构化的方式明确划分每个角色的属性：

<character_1> <n>miku</n> <gender>1girl</gender> <appearance>blue_hair, long_twintails, teal_eyes</appearance> </character_1> <character_2> <n>rem</n> <gender>1girl</gender> <appearance>silver_hair, short_cut, red_eyes</appearance> </character_2> <general_tags> <style>anime_style, high_quality</style> </general_tags>

这种格式就像给每个角色建立了一份“档案”，AI 在生成时会严格按照这份档案来构建画面，大大减少了属性错位的可能性。

3.2 关键标签说明

以下是常用 XML 标签及其作用：

标签	说明
`<n>`	角色名称（可选，用于内部引用）
`<gender>`	性别描述，如 `1girl`, `1boy`, `2girls` 等
`<appearance>`	外貌特征，包括发型、发色、眼睛颜色、服装等
`<pose>`	姿势描述，如 `standing`, `sitting`, `waving`
`<expression>`	表情，如 `smiling`, `serious`, `blushing`
`<general_tags>`	全局风格标签，适用于整个画面

你可以根据需要自由组合这些标签。例如，想让两个角色互动，可以在 general_tags 中加入 conversation, facing_each_other。

3.3 实际修改示例

打开 test.py 文件，找到如下代码段：

prompt = """ <character_1> <n>miku</n> <gender>1girl</gender> <appearance>blue_hair, long_twintails, teal_eyes</appearance> </character_1> <general_tags> <style>anime_style, high_quality</style> </general_tags> """

试着把它改成双人场景：

prompt = """ <character_1> <n>miku</n> <gender>1girl</gender> <appearance>blue_hair, long_twintails, teal_eyes, school_uniform</appearance> <pose>standing</pose> <expression>smiling</expression> </character_1> <character_2> <n>rem</n> <gender>1girl</gender> <appearance>silver_hair, short_cut, red_eyes, casual_clothes</appearance> <pose>sitting</pose> <expression>calm</expression> </character_2> <general_tags> <style>anime_style, high_quality, outdoor_scene</style> <action>chatting_under_a_tree</action> </general_tags> """

保存后再次运行 python test.py，你会发现生成的画面更加复杂且富有故事感。

4. 进阶操作：交互式生成与批量处理

除了静态脚本外，镜像还提供了更灵活的使用方式，适合不同层次的用户需求。

4.1 使用交互式脚本 create.py

如果你不想每次修改代码再运行，可以使用 create.py 脚本进行实时对话式生成：

python create.py

运行后，程序会提示你输入提示词。你可以直接输入 XML 内容，也可以输入普通文本（系统会尝试自动转换）。每完成一次生成，它会询问是否继续，非常适合探索性创作。

4.2 批量生成图片

如果你想一次性生成大量图片用于数据集构建或风格测试，可以编写一个简单的循环脚本：

from pathlib import Path import time prompts = [ # 场景1：单人特写 """<character_1><n>lucy</n><gender>1girl</gender><appearance>pink_hair, ponytail, green_eyes</appearance></character_1>""", # 场景2：战斗姿态 """<character_1><n>kirito</n><gender>1boy</gender><appearance>black_hair, sword, dark_coat</appearance><pose>fighting_stance</pose></character_1>""", # 场景3：节日氛围 """<character_1><n>yui</n><gender>1girl</gender><appearance>brown_hair, santa_hat, red_dress</appearance></character_1><general_tags><style>christmas_theme, night_city</style></general_tags>""" ] for i, p in enumerate(prompts): filename = f"batch_output_{i+1}.png" # 此处调用生成函数（具体实现参考 test.py） generate_image(p, output_path=filename) print(f"Saved: {filename}") time.sleep(2) # 避免显存压力过大

将上述逻辑整合进自己的脚本中，即可实现自动化批量生成。

4.3 显存管理建议

由于模型本身占用约 14-15GB 显存，建议在以下方面注意资源使用：

不要同时运行多个生成进程
如果显存紧张，可在脚本中启用 torch.cuda.empty_cache() 清理缓存
对于长时间运行的任务，考虑使用 --low_vram 模式（如有支持）

5. 总结

NewBie-image-Exp0.1 镜像为我们提供了一个近乎完美的起点，让我们能够绕过复杂的部署流程，直接投入到真正的创作中去。无论是想快速验证某个创意，还是进行系统的动漫图像研究，它都能胜任。

我们从最基本的运行测试脚本开始，逐步深入到 XML 提示词的结构化控制，再到交互式和批量生成的应用场景，完整走了一遍从入门到进阶的路径。你会发现，一旦掌握了 XML 提示词的写法，AI 就不再是一个“随机发挥”的黑盒，而是变成了一个可以精准指挥的绘图助手。

当然，任何工具都有其局限性。目前该模型主要聚焦于动漫风格，在写实类图像上的表现可能不如专用模型；XML 语法虽然强大，但也增加了学习成本。但总体来看，它的优势远大于不足，特别适合需要高质量、可控性强的动漫图像生成任务。

下一步，你可以尝试结合外部工具（如 Gradio）搭建一个简易的 Web 界面，让更多非技术用户也能方便地使用这个模型。或者，将生成的图像用于动画分镜、游戏角色设定、社交媒体内容创作等实际场景，真正让 AI 成为你创作生态的一部分。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

NewBie-image-Exp0.1从零开始：Python调用大模型生成图片教程

Ne0inhk