LTX-2.3：开源音视频生成模型，支持文生视频与本地部署

在 AI 视频生成领域，许多令人惊艳的 Demo 往往受限于闭源环境。Lightricks 发布的 LTX-2.3 提供了一个完全开源、可本地运行的解决方案，这是一个能同时生成高质量视频和同步音频的基础模型。它不仅是实验室产物，更是为生产环境设计的创作引擎。

开源 vs 闭源模型对比学术图表

LTX-2.3 基于 Diffusion Transformer（DiT）架构构建，拥有约 190 亿参数，其中 140 亿用于视频处理，50 亿用于音频生成。这是业界首批能够在单一统一架构中同时生成同步音频和视频的开源模型之一。

与前代相比，2.3 版本带来了全面的质量提升：

模型支持三种主要的生成模式，为创作者打开了新的可能性：

文生视频（Text-to-Video）：用自然语言描述画面，模型自动匹配场景音效。它懂得空间关系、物理规律和运动逻辑，生成的视频在时间维度上保持高度一致性。
图生视频（Image-to-Video）：上传静态图片生成连贯的运动视频。2.3 版本在图片到视频的一致性上显著提升，适合将产品图、概念图转化为动态展示。
音频驱动视频（Audio-to-Video）：提供一段音频，生成与节奏、情绪完全同步的视频画面。声音成为创作的起点，适用于播客配图、音乐 MV 制作等场景。

LTX-2.3 三种生成模式学术示意图

LTX-2.3 最令人关注的特性在于其开放性。模型权重在 HuggingFace 上完全开放，采用 Apache 2.0 许可协议，允许商业使用。发布包包含基础开发检查点、量化的 fp8 变体以及用于快速推理的蒸馏模型。

开源生态系统架构学术图

模型提供了两个变体以适应不同需求：ltx-2-3-fast 专注于快速迭代，适合创意探索；ltx-2-3-pro 追求生产级质量，适合最终交付。两者均支持 720p 和 1080p 分辨率，最长可生成 20 秒片段，并支持高达 4K 的输出。

更多推荐文章