HeyGem.ai 开源 AI 数字人安装配置指南

项目概述

HeyGem.ai（又名 Duix.Avatar）是一款革命性的开源 AI 视频合成工具，能够在本地环境中精确克隆用户的外貌和声音，实现数字人形象的全数字化。用户只需提供一段约 10 秒的视频，即可快速完成数字人形象和声音的克隆，通过输入文案或上传音频就能驱动数字人口型，自动生成高质量的口播视频内容。

核心技术特性

智能视觉引擎：基于深度学习的面部特征捕捉与重建系统，高精度捕捉真人外貌特征，包括五官形状、面部轮廓等，构建逼真虚拟模型。

语音合成技术：精准克隆声音，捕捉并还原人声的细微特征，支持多种声音参数设置，创造与原声高度相似的克隆效果。

多模态融合：通过自然语言处理技术理解文本内容，将文字转换为自然流畅的语音，实现文字和语音驱动虚拟形象。

全离线操作：无需联网即可使用，有效保护用户隐私，让用户在安全、独立的环境中创作。

系统环境要求

Windows 系统要求

操作系统：Windows 10 19042.1526 或更高版本
硬件配置：
- CPU：第 13 代英特尔酷睿 i5-13400F 或更高
- 内存：32GB 及以上（必要）
- 显卡：RTX 4070 或更高（必须配备 NVIDIA 显卡）
- 存储空间：C 盘 100GB 以上，D 盘 30GB 以上

Ubuntu 系统要求

操作系统：Ubuntu 22.04 Desktop 版本
硬件配置：与 Windows 要求相同

安装部署流程

第一步：环境准备

安装 Docker 环境：

检查 WSL 状态：wsl --list --verbose
更新 WSL：wsl --update
下载并安装 Docker for Windows
首次运行时接受协议并跳过登录

第二步：拉取 Docker 镜像

执行以下命令拉取必要的 Docker 镜像：

docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/duix.avatar

第三步：服务端部署

进入 deploy 目录执行部署命令：

cd deploy
docker-compose up -d

等待约 30 分钟，系统将自动下载并启动三个核心服务：

ASR 语音识别服务
TTS 语音合成服务
视频生成服务

第四步：客户端安装

下载官方构建的安装包
双击 Duix.Avatar-x.x.x-setup.exe 完成安装

核心功能使用

数字人模型训练

将视频分离为静音视频和音频
音频文件放置在指定目录：D:\duix_avatar_data\voice\data
调用模特训练接口进行模型训练

HeyGem.ai 开源 AI 数字人安装配置指南

HeyGem.ai 开源 AI 数字人安装配置指南

项目概述

核心技术特性

系统环境要求

Windows 系统要求

Ubuntu 系统要求

安装部署流程

第一步：环境准备

第二步：拉取 Docker 镜像

第三步：服务端部署

第四步：客户端安装

核心功能使用

数字人模型训练

音频合成

更多推荐文章

相关免费在线工具

视频合成

开放 API 接口

常见问题解决

服务状态检查

故障排查步骤

技术优势

应用场景

后续优化建议

注意事项

更多推荐文章

相关免费在线工具

HeyGem.ai 开源 AI 数字人安装配置指南

HeyGem.ai 开源 AI 数字人安装配置指南

项目概述

核心技术特性

系统环境要求

Windows 系统要求

Ubuntu 系统要求

安装部署流程

第一步：环境准备

第二步：拉取 Docker 镜像

第三步：服务端部署

第四步：客户端安装

核心功能使用

数字人模型训练

音频合成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

视频合成

开放 API 接口

常见问题解决

服务状态检查

故障排查步骤

技术优势

应用场景

后续优化建议

注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具