ComfyUI v0.18.0 深度解析:显存优化与 VAE 架构进化
这次更新是 ComfyUI 发展史上一次真正的'工程级进化'。v0.18.0 不再仅仅是功能的堆砌,而是将重心完全放在了稳定性与性能极限的挖掘上。对于日常使用高分辨率生成、视频工作流或低显存环境的用户来说,这是一个必须关注的里程碑版本。
为什么这次更新值得升级?
本次发布的核心逻辑非常清晰:更省显存 · 更稳内存 · 更强扩展 · 更一致的数据类型体系。官方统计显示,此次涉及 53 次提交、79 个文件变更,覆盖了从核心推理到前端生态的全链路。
显存管理:中低配显卡的福音
这是本次改动最密集的部分。过去运行 LTX 或 WAN 视频模型时,显存占用往往是瓶颈,而 v0.18.0 通过以下手段实现了显著突破:
- VAE 解码优化:解码阶段峰值内存大幅下降,中间结果在
intermediate_device上累积,流程改为更细粒度的 chunk 处理。 - 编码器分块机制:编码阶段支持 chunked encoder,CPU IO 分块加载,有效缓解大分辨率下的 OOM 风险。
- 视频 VAE 修复:解决了 tiler fallback 场景下的 VRAM leak 问题,像素空间 VAE 潜在问题也一并修复。
- 原地处理支持:VAE 输出支持原地处理,进一步降低峰值 RAM 消耗。
这意味着即使是 8G 甚至更低显存的显卡,也能稳定跑通复杂的高分辨率图像和视频工作流。
数据类型与精度体系的统一
ComfyUI 在 v0.18.0 中推进了一个关键理念:中间值必须严格跟随 intermediate dtype 与 device。这听起来很技术,但对实际体验影响很大。
新增的命令行参数 --fp16-intermediates 允许强制中间计算使用 FP16,显著降低显存占用。虽然部分文本编码模型存在兼容性问题,但官方已明确标注并修复了相关回归。同时,Load Diffusion Model 节点中的 weight_dtype 被标记为高级参数,让权重 dtype 与中间计算 dtype 的区分更加明确。
此外,动态显存机制得到增强,新增 --enable-dynamic-vram 参数可强制开启。原子写入 userdata 和跳过程序退出时的 finalizer 逻辑,都旨在防止崩溃时的数据损坏或卡死。
推理、训练与 API 生态
除了显存,底层能力的提升同样重要:
- 多精度支持:新增 MXFP8 支持,Trainer 支持 FP4/FP8/FP16,原生 dtype 支持与量化线性层自动求导函数,让混合精度训练更灵活。
- 平台适配:AMD gfx1150 启用 PyTorch Attention,Apple Silicon 文本编码器 GPU 运行尝试后回退以确保稳定性。
- API Nodes:功能持续扩展,包括 Tencent TextToModel 修复、Nano Banana 2 新增 thought_image 支持等。本地 API 与云端规范对齐,提升了自动化部署的可靠性。
前端与工作流体验
前端资源缓存策略调整为 no-store,防止版本不一致导致的显示错误。工作流模板更新至 v0.9.26,节点分类新增 essentials_category,新手更容易发现高频使用的 Essentials 标签页。
Manager 与 comfy-aimdo 的版本同步升级,Windows 平台 RAM 释放策略优化,推理速度更快,内存回收更及时。CI 校验规则的增加也确保了主分支不会混入无效代码。
总结
如果你符合以下任一情况,强烈建议升级到 v0.18.0:
- 显存 8G / 12G 甚至更低
- 使用 LTX / WAN / 视频 VAE
- 需要高分辨率或大批量推理

