LTX-2.3：开源 AI 视频生成模型，支持音视频同步生成

综述由AI生成LTX-2.3 是 Lightricks 推出的开源音视频生成基础模型，基于 Diffusion Transformer 架构。它支持文生视频、图生视频及音频驱动视频三种模式，能同步生成高质量画面与声音。相比前代，新版重建了 VAE 提升细节，升级 HiFi-GAN 改善音质，并增强了对复杂提示词的理解。模型采用 Apache 2.0 协议开源，支持本地运行、LoRA 微调及 ComfyUI 集成，旨在降低 AI 视频创作门槛，推动技术民主化。

晚风告白发布于 2026/4/6更新于 2026/5/2227 浏览

当 AI 视频生成不再是闭源巨头的专利

在 AI 视频生成领域，我们见证了太多令人惊艳的 demo，但它们大多藏在闭源的高墙之后。而今天，Lightricks 发布的 LTX-2.3 正在改写这个故事——这是一个完全开源、可本地运行、能同时生成高质量视频和同步音频的基础模型。更重要的是，它不只是一个实验室产物，而是一个真正为生产环境设计的创作引擎。

什么是 LTX-2.3？

LTX-2.3 是 Lightricks 推出的最新一代音视频生成基础模型，它基于 Diffusion Transformer（DiT）架构构建，拥有约 190 亿参数，其中 140 亿用于视频处理，50 亿用于音频生成。这是业界首批能够在单一统一架构中同时生成同步音频和视频的开源模型之一。

与前代 LTX-2 相比，2.3 版本带来了全面的质量提升。它重建了 VAE（变分自编码器），使用更高质量的数据进行训练，显著提升了细节保留能力；升级了 HiFi-GAN 声码器，让音频输出更加清晰自然；增强了图生视频的一致性；改进了提示词理解能力，尤其是在处理包含多个主体、空间关系或特定风格指令的复杂提示词时表现更出色。

核心能力：不只是生成视频

LTX-2.3 的能力远超传统的文生视频模型，它支持三种主要的生成模式，每一种都为创作者打开了新的可能性。

**文生视频（Text-to-Video）**是最基础也是最直接的能力。你只需要用自然语言描述想要的画面，模型就能生成对应的视频片段，并自动配上与场景匹配的环境音效或背景音乐。这不是简单的根据文字生成画面，而是对场景的深度理解——它懂得空间关系、物理规律、运动逻辑，生成的视频在时间维度上保持高度一致性。

**图生视频（Image-to-Video）**让静态图片动起来。上传一张图片，模型会基于图片内容生成连贯的运动视频，同时配上合适的音效。2.3 版本在这个能力上有显著提升，图片到视频的一致性更强，生成的运动更自然，细节保留更完整。这对于需要将产品图、概念图、角色设计图转化为动态展示的创作者来说是巨大的福音。

**音频驱动视频（Audio-to-Video）**是 LTX-2.3 最独特的能力之一。你可以提供一段音频，模型会生成与音频节奏、情绪、内容完全同步的视频画面。这意味着声音不再是视频的附属品，而是可以成为创作的起点——音乐的节拍定义了画面的运动，语音的语调影响了场景的氛围，音效的变化驱动了视觉的转换。这为播客配图、音乐 MV 制作、有声读物可视化等场景提供了全新的创作路径。

技术突破：细节中见真章

LTX-2.3 的提升不是表面的，而是深入到架构层面的优化。

模型重建了 VAE 潜在空间，这个改进直接提升了画面的清晰度和细节保留能力。在之前的版本中，面部特征、头发纹理、文字渲染、边缘细节往往会在生成过程中丢失或模糊，而新的 VAE 能够在整个画面中保持这些精细元素的完整性。这意味着生成的视频不再是看起来还不错的程度，而是真正达到了可用于专业制作的质量标准。

文本连接器的容量和架构也得到了增强。这个连接器负责将提示词编码与生成模型连接起来，它的改进让模型能够更准确地理解复杂的提示词，尤其是那些包含多个主体、空间关系或特定风格指令的描述。生成结果与提示词的偏离大幅减少，创作者的意图能够更精确地传达到最终输出中。

音频质量的提升同样显著。升级后的 HiFi-GAN 声码器让生成的音频更加清晰，减少了之前版本中存在的金属感和失真问题。虽然在生成不包含语音的纯音效时质量仍有提升空间，但整体的音频表现已经达到了实用级别。

模型原生支持竖屏视频生成，分辨率可达 1080×1920，这对于短视频平台的内容创作者来说是重要的功能。横屏和竖屏在相同分辨率下的定价和生成质量完全一致，创作者可以根据平台需求灵活选择。

开源与本地化：真正属于创作者的工具

LTX-2.3 最令人兴奋的地方在于它的开放性。模型权重在 HuggingFace 上完全开放，采用 Apache 2.0 许可协议，允许商业使用。发布包包含基础开发检查点、量化的 fp8 变体，以及用于快速推理的蒸馏模型。这意味着无论你是个人开发者、小型工作室还是企业用户，都可以自由使用、修改和部署这个模型。

模型支持 LoRA 微调，这让定制化成为可能。你可以针对特定风格、角色或使用场景训练自己的 LoRA，让模型更符合你的创作需求。官方提供的训练工具让这个过程变得相对简单，即使是没有深厚机器学习背景的创作者也能在社区的帮助下完成微调。

更重要的是，LTX-2.3 可以完全在本地运行。Lightricks 同步发布了 LTX Desktop，这是一个基于 LTX-2.3 引擎构建的完整视频编辑器，完全开源，完全本地运行，没有云依赖。这不是一个简化的 demo 应用，而是 Lightricks 团队内部实际使用的生产工具。它将非线性视频编辑与设备端 AI 生成结合在一起，你可以在时间线上直接生成多个版本的片段并无损切换，可以使用上下文感知的间隙填充自动生成与周围片段匹配的内容，可以在不离开时间线的情况下重新生成特定片段。

对于习惯使用 ComfyUI 的用户，LTX-2.3 提供了完整的自定义节点支持，包含文生视频、图生视频和多阶段生成的参考工作流。你可以通过 ComfyUI Manager 直接安装内置的 LTXVideo 节点，快速搭建自己的生成流程。

性能与可用性：为生产环境优化

LTX-2.3 提供了两个模型变体以适应不同的使用场景。ltx-2-3-fast 专注于快速迭代，适合需要大量尝试和调整的创意探索阶段；ltx-2-3-pro 则追求生产级质量，适合最终输出和交付。两个变体都支持 720p 和 1080p 分辨率，最长可生成 20 秒的视频片段，并且支持高达 4K 的输出。

LTX-2.3：开源 AI 视频生成模型，支持音视频同步生成

当 AI 视频生成不再是闭源巨头的专利

什么是 LTX-2.3？

核心能力：不只是生成视频

技术突破：细节中见真章

开源与本地化：真正属于创作者的工具

性能与可用性：为生产环境优化

更多推荐文章

相关免费在线工具

实际应用：从创意到生产

未来展望：AI 视频生成的民主化

更多推荐文章

相关免费在线工具

LTX-2.3：开源 AI 视频生成模型，支持音视频同步生成

当 AI 视频生成不再是闭源巨头的专利

什么是 LTX-2.3？

核心能力：不只是生成视频

技术突破：细节中见真章

开源与本地化：真正属于创作者的工具

性能与可用性：为生产环境优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实际应用：从创意到生产

未来展望：AI 视频生成的民主化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具