ComfyUI v0.18.0 深度解析：显存优化与 VAE 架构进化

ComfyUI v0.18.0 核心更新概览

这次更新是 ComfyUI 发展史上一次真正的'工程级进化'。v0.18.0 不再仅仅是功能的堆砌，而是将重心完全放在了稳定性与性能极限的挖掘上。对于日常使用高分辨率生成、视频工作流或低显存环境的用户来说，这是一个必须关注的里程碑版本。

为什么这次更新值得升级？

本次发布的核心逻辑非常清晰：更省显存 · 更稳内存 · 更强扩展 · 更一致的数据类型体系。官方统计显示，此次涉及 53 次提交、79 个文件变更，覆盖了从核心推理到前端生态的全链路。

显存管理：中低配显卡的福音

这是本次改动最密集的部分。过去运行 LTX 或 WAN 视频模型时，显存占用往往是瓶颈，而 v0.18.0 通过以下手段实现了显著突破：

VAE 解码优化：解码阶段峰值内存大幅下降，中间结果在 intermediate_device 上累积，流程改为更细粒度的 chunk 处理。
编码器分块机制：编码阶段支持 chunked encoder，CPU IO 分块加载，有效缓解大分辨率下的 OOM 风险。
视频 VAE 修复：解决了 tiler fallback 场景下的 VRAM leak 问题，像素空间 VAE 潜在问题也一并修复。
原地处理支持：VAE 输出支持原地处理，进一步降低峰值 RAM 消耗。

这意味着即使是 8G 甚至更低显存的显卡，也能稳定跑通复杂的高分辨率图像和视频工作流。

数据类型与精度体系的统一

ComfyUI 在 v0.18.0 中推进了一个关键理念：中间值必须严格跟随 intermediate dtype 与 device。这听起来很技术，但对实际体验影响很大。

新增的命令行参数 --fp16-intermediates 允许强制中间计算使用 FP16，显著降低显存占用。虽然部分文本编码模型存在兼容性问题，但官方已明确标注并修复了相关回归。同时，Load Diffusion Model 节点中的 weight_dtype 被标记为高级参数，让权重 dtype 与中间计算 dtype 的区分更加明确。

此外，动态显存机制得到增强，新增 --enable-dynamic-vram 参数可强制开启。原子写入 userdata 和跳过程序退出时的 finalizer 逻辑，都旨在防止崩溃时的数据损坏或卡死。

推理、训练与 API 生态

除了显存，底层能力的提升同样重要：

多精度支持：新增 MXFP8 支持，Trainer 支持 FP4/FP8/FP16，原生 dtype 支持与量化线性层自动求导函数，让混合精度训练更灵活。
平台适配：AMD gfx1150 启用 PyTorch Attention，Apple Silicon 文本编码器 GPU 运行尝试后回退以确保稳定性。
API Nodes：功能持续扩展，包括 Tencent TextToModel 修复、Nano Banana 2 新增 thought_image 支持等。本地 API 与云端规范对齐，提升了自动化部署的可靠性。

前端与工作流体验

前端资源缓存策略调整为 no-store，防止版本不一致导致的显示错误。工作流模板更新至 v0.9.26，节点分类新增 essentials_category，新手更容易发现高频使用的 Essentials 标签页。

Manager 与 comfy-aimdo 的版本同步升级，Windows 平台 RAM 释放策略优化，推理速度更快，内存回收更及时。CI 校验规则的增加也确保了主分支不会混入无效代码。

总结

如果你符合以下任一情况，强烈建议升级到 v0.18.0：

显存 8G / 12G 甚至更低
使用 LTX / WAN / 视频 VAE
需要高分辨率或大批量推理

ComfyUI v0.18.0 深度解析：显存优化与 VAE 架构进化