HeyGem.ai 开源 AI 数字人安装配置指南
项目概述
HeyGem.ai(又名 Duix.Avatar)是一款革命性的开源 AI 视频合成工具,能够在本地环境中精确克隆用户的外貌和声音,实现数字人形象的全数字化。用户只需提供一段约 10 秒的视频,即可快速完成数字人形象和声音的克隆,通过输入文案或上传音频就能驱动数字人口型,自动生成高质量的口播视频内容。
核心技术特性
智能视觉引擎:基于深度学习的面部特征捕捉与重建系统,高精度捕捉真人外貌特征,包括五官形状、面部轮廓等,构建逼真虚拟模型。
语音合成技术:精准克隆声音,捕捉并还原人声的细微特征,支持多种声音参数设置,创造与原声高度相似的克隆效果。
多模态融合:通过自然语言处理技术理解文本内容,将文字转换为自然流畅的语音,实现文字和语音驱动虚拟形象。
全离线操作:无需联网即可使用,有效保护用户隐私,让用户在安全、独立的环境中创作。
系统环境要求
Windows 系统要求
- 操作系统:Windows 10 19042.1526 或更高版本
- 硬件配置:
- CPU:第 13 代英特尔酷睿 i5-13400F 或更高
- 内存:32GB 及以上(必要)
- 显卡:RTX 4070 或更高(必须配备 NVIDIA 显卡)
- 存储空间:C 盘 100GB 以上,D 盘 30GB 以上
Ubuntu 系统要求
- 操作系统:Ubuntu 22.04 Desktop 版本
- 硬件配置:与 Windows 要求相同
安装部署流程
第一步:环境准备
安装 Docker 环境:
- 检查 WSL 状态:
wsl --list --verbose - 更新 WSL:
wsl --update - 下载并安装 Docker for Windows
- 首次运行时接受协议并跳过登录
第二步:拉取 Docker 镜像
执行以下命令拉取必要的 Docker 镜像:
docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/duix.avatar
第三步:服务端部署
进入 deploy 目录执行部署命令:
cd deploy
docker-compose up -d
等待约 30 分钟,系统将自动下载并启动三个核心服务:
- ASR 语音识别服务
- TTS 语音合成服务
- 视频生成服务
第四步:客户端安装
- 下载官方构建的安装包
- 双击
Duix.Avatar-x.x.x-setup.exe完成安装
核心功能使用
数字人模型训练
- 将视频分离为静音视频和音频
- 音频文件放置在指定目录:
D:\duix_avatar_data\voice\data - 调用模特训练接口进行模型训练
音频合成
调用音频合成接口,传入训练好的模型参数和需要合成的文本内容,即可生成自然流畅的语音。

