AI 视频生成的开源新选择
在 AI 视频生成领域,许多令人惊艳的 Demo 往往受限于闭源环境。Lightricks 发布的 LTX-2.3 提供了一个完全开源、可本地运行的解决方案,这是一个能同时生成高质量视频和同步音频的基础模型。它不仅是实验室产物,更是为生产环境设计的创作引擎。

技术架构与核心能力
LTX-2.3 基于 Diffusion Transformer(DiT)架构构建,拥有约 190 亿参数,其中 140 亿用于视频处理,50 亿用于音频生成。这是业界首批能够在单一统一架构中同时生成同步音频和视频的开源模型之一。
与前代相比,2.3 版本带来了全面的质量提升:
- VAE 重建:使用更高质量的数据训练,显著提升了细节保留能力,面部特征、头发纹理及文字渲染更加完整。
- HiFi-GAN 声码器升级:让音频输出更加清晰自然,减少了金属感和失真问题。
- 提示词理解增强:在处理包含多个主体、空间关系或特定风格指令的复杂提示词时表现更出色。
模型支持三种主要的生成模式,为创作者打开了新的可能性:
- 文生视频(Text-to-Video):用自然语言描述画面,模型自动匹配场景音效。它懂得空间关系、物理规律和运动逻辑,生成的视频在时间维度上保持高度一致性。
- 图生视频(Image-to-Video):上传静态图片生成连贯的运动视频。2.3 版本在图片到视频的一致性上显著提升,适合将产品图、概念图转化为动态展示。
- 音频驱动视频(Audio-to-Video):提供一段音频,生成与节奏、情绪完全同步的视频画面。声音成为创作的起点,适用于播客配图、音乐 MV 制作等场景。

部署与扩展性
LTX-2.3 最令人关注的特性在于其开放性。模型权重在 HuggingFace 上完全开放,采用 Apache 2.0 许可协议,允许商业使用。发布包包含基础开发检查点、量化的 fp8 变体以及用于快速推理的蒸馏模型。
- 本地运行:支持完全本地部署,无需云依赖。官方发布了基于该引擎构建的完整视频编辑器,支持非线性编辑与设备端 AI 生成结合。
- ComfyUI 集成:提供完整的自定义节点支持,包含文生视频、图生视频和多阶段生成的参考工作流,可通过 ComfyUI Manager 直接安装。
- LoRA 微调:支持针对特定风格、角色或使用场景进行 LoRA 训练,官方提供的工具降低了定制化门槛。

性能优化与适用场景
模型提供了两个变体以适应不同需求:ltx-2-3-fast 专注于快速迭代,适合创意探索;ltx-2-3-pro 追求生产级质量,适合最终交付。两者均支持 720p 和 1080p 分辨率,最长可生成 20 秒片段,并支持高达 4K 的输出。



