Live Avatar 部署教程：Gradio Web UI 与 CLI 模式快速上手

介绍阿里开源数字人模型 Live Avatar 的部署方法。涵盖硬件配置要求（如单卡 80GB GPU 或多卡组合）、CLI 命令行与 Gradio Web UI 两种启动模式、关键参数详解（分辨率、采样步数等）、典型应用场景配置及故障排查方案。旨在帮助用户在不同硬件条件下快速搭建数字人生成环境，实现语音驱动视频生成。

观心发布于 2026/4/6更新于 2026/5/2235 浏览

Live Avatar 部署教程：Gradio Web UI 与 CLI 模式快速上手

1. 认识 Live Avatar：开源数字人模型的来龙去脉

Live Avatar 是由阿里联合高校团队开源的端到端数字人生成模型，它能将一张静态人像、一段音频和一段文本提示词，实时合成出自然生动的说话视频。不同于传统数字人依赖复杂动作捕捉或预设动画库，Live Avatar 基于 14B 参数规模的多模态扩散架构，实现了语音驱动口型、表情、微动作与语义内容的高度协同。

这个模型最特别的地方在于'实时性'——它不是先生成图像再合成视频，而是直接在潜空间中建模动态视频帧序列。这意味着你输入一句话和一段语音，它就能边推理边输出连续帧，而不是等全部计算完才给你一个视频文件。这种设计让交互更自然，也更适合做直播、虚拟助手、AI 讲师等需要低延迟响应的场景。

不过，技术越先进，对硬件的要求也越实在。目前这个镜像需要单张 80GB 显存的 GPU 才能流畅运行。我们实测过 5 张 RTX 4090（每张 24GB 显存），依然无法启动——不是因为总显存不够（5×24=120GB > 80GB），而是因为模型在推理时需要'unshard'（重组）分片参数，导致单卡瞬时显存峰值超过 25GB，而 4090 实际可用显存只有约 22.15GB。这不是配置问题，而是当前 FSDP（Fully Sharded Data Parallel）在推理阶段的固有瓶颈。

所以如果你手头只有 4090 或 A100 40GB 这类主流卡，别急着拆机拼卡。你可以选择：① 接受现实，等官方发布针对 24GB 卡的轻量版；② 用单卡+CPU offload 勉强跑通（速度很慢但能出结果）；③ 直接上云租用 A100 80GB 或 H100 实例。本文后续所有操作指南，都会明确标注每种方案对应的硬件门槛。

2. 快速启动：两种模式，三类配置

Live Avatar 提供两种使用入口：命令行（CLI）适合批量处理和自动化脚本，Gradio Web UI 则像一个可视化控制台，拖拽上传、滑动调节、一键生成，对新手极其友好。无论选哪种，你都需要先确认自己的 GPU 数量和显存规格，再匹配对应脚本。

2.1 硬件配置与启动脚本对照表

硬件配置	推荐模式	CLI 启动脚本	Web UI 启动脚本	关键限制
单张 80GB GPU（如 A100 80G）	单 GPU 模式	`bash infinite_inference_single_gpu.sh`	`bash gradio_single_gpu.sh`	必须启用`--offload_model True`，否则 OOM
4 张 24GB GPU（如 4×4090）	4 GPU TPP 模式	`./run_4gpu_tpp.sh`	`./run_4gpu_gradio.sh`	分辨率建议≤688×368，避免单卡超载
5 张 80GB GPU（如 5×A100 80G）	5 GPU TPP 模式	`bash infinite_inference_multi_gpu.sh`	`bash gradio_multi_gpu.sh`	支持 720×400 及以上分辨率，长视频首选

重要提醒：所有脚本都预置了合理的默认参数，首次运行无需修改即可看到效果。但如果你发现启动失败，请先执行nvidia-smi确认 GPU 是否被正确识别，再检查CUDA_VISIBLE_DEVICES环境变量是否设置正确。

2.2 第一次运行：从 CLI 开始的三步实操

打开终端，进入项目根目录，按你的硬件选择以下任一命令：

# 如果你有 4 张 4090，运行这个（最快上手） ./run_4gpu_tpp.sh # 如果你有 5 张 A100 80G，运行这个（高画质首选） bash infinite_inference_multi_gpu.sh # 如果你只有一张 A100 80G，运行这个（需耐心等待） bash infinite_inference_single_gpu.sh