【零成本克隆数字人】HeyGem.ai实测：10秒视频打造专属AI分身，全流程避坑指南

2026-02-04 04:12:48作者：凌朦慧Richard

你是否还在为制作专业口播视频烦恼？花费数千元请真人出镜？或是被商业数字人平台按分钟收费搞得望而却步？现在，这些问题都将成为过去。今天要给大家介绍的HeyGem.ai（Duix.Avatar）开源项目，让你只需一台普通电脑，就能免费克隆自己的数字形象和声音，从此告别高昂制作成本，轻松实现视频内容量产。

读完本文，你将获得：

从零开始部署本地数字人生成环境的详细步骤
10秒视频克隆个人形象的实操教程
常见问题解决方案与硬件配置建议
项目核心功能与API接口的深度解析

项目简介：让每个人都能拥有数字分身

HeyGem.ai（Duix.Avatar）是由硅基智能开发的开源数字人项目，支持通过一段10秒视频快速克隆人物形象和声音，输入文字即可生成口型同步的播报视频。与传统商业解决方案相比，它具有三大核心优势：全离线运行保护隐私、零成本免费使用、高度自定义扩展能力。

该项目采用Docker容器化部署，包含三个核心服务：

语音识别服务（fun-asr）
语音合成服务（fish-speech-ziming）
视频合成服务（duix.avatar）

技术架构上，项目使用了先进的AI算法实现高精度面部特征捕捉和声音克隆，通过src/main/service/model.js、src/main/service/video.js和src/main/service/voice.js三个核心模块提供完整的数字人生成流水线。

硬件准备：普通电脑也能跑的配置要求

在开始部署前，需要确保你的电脑满足以下基本要求：

最低配置

操作系统：Windows 10 19042.1526或更高版本 / Ubuntu 22.04
处理器：Intel i5-13400F或同等AMD处理器
内存：32GB RAM（必要条件）
显卡：NVIDIA RTX 4070（必须为NVIDIA显卡并安装最新驱动）
存储空间：至少130GB可用空间（C盘100GB用于Docker镜像，D盘30GB用于数据存储）

注意：项目所有计算均在本地完成，没有NVIDIA显卡将无法运行核心服务。推荐使用32GB以上内存，16GB内存可能导致服务启动失败。

部署教程：Windows系统一步到位安装指南

安装前准备工作

检查WSL状态：打开命令提示符，输入wsl --list --verbose确认WSL已安装

更新WSL：执行wsl --update命令确保WSL为最新版本

安装Docker Desktop：从Docker官网下载并安装适用于Windows的Docker Desktop

启动Docker并完成初始设置，接受协议并跳过登录步骤

服务端部署步骤

克隆项目代码库：

git clone https://gitcode.com/GitHub_Trending/he/HeyGem.ai
cd HeyGem.ai/deploy

根据硬件配置选择合适的部署模式：
- 完整版本（推荐）：docker-compose up -d
- 轻量版本（低配置电脑）：docker-compose -f docker-compose-lite.yml up -d
- NVIDIA 50系列显卡：docker-compose -f docker-compose-5090.yml up -d
等待镜像下载和服务启动（约30分钟，视网络情况而定），成功后Docker将显示三个运行中的服务

客户端安装

从项目Releases页面下载最新客户端安装包
双击Duix.Avatar-x.x.x-setup.exe完成安装
启动客户端，首次运行将自动连接本地服务

实战教程：10秒克隆你的数字形象

准备工作

一段10秒左右的正面视频，确保：
- 光线充足，面部清晰可见
- 包含说话声音（用于声音克隆）
- 背景简单，避免过多干扰元素

克隆步骤

打开HeyGem.ai客户端，点击"创建数字人"按钮
上传准备好的10秒视频
等待系统自动处理（约2-5分钟）
输入测试文本，预览数字人效果
调整参数优化效果（语速、语调等）
生成并保存你的第一个数字人视频

注意：用于创建模特的视频必须包含清晰人声，程序需要通过声音进行克隆。如果遇到"Connection refused"错误，可能是因为服务尚未完全启动，请等待几分钟后重试。

常见问题与解决方案

服务启动失败

问题表现：Docker中的服务未显示为"Running"状态

解决方案：

检查NVIDIA驱动是否正确安装，执行nvidia-smi命令验证
确认系统满足最低硬件要求，特别是内存和显卡
重启Docker服务，执行docker-compose down后重新启动

Docker镜像拉取缓慢

问题表现：执行docker-compose命令后下载速度极慢或超时

解决方案：配置Docker国内镜像源：

打开Docker设置，进入"Docker Engine"选项卡
添加以下镜像源：

{
  "registry-mirrors": [
    "https://docker.zhai.cm",
    "https://hub.littlediary.cn",
    "https://atomhub.openatom.cn",
    "https://docker.m.daocloud.io"
  ]
}

重启Docker服务使配置生效

数字人创建失败

问题表现：上传视频后提示错误，无法完成克隆

解决方案：

检查视频是否包含声音，无声视频无法用于声音克隆
确认视频长度在10秒左右，过短或过长都会影响效果
确保光照充足，面部无遮挡，背景简单

高级功能：API接口与二次开发

HeyGem.ai提供了完整的API接口，支持开发者进行二次开发和功能扩展。主要接口包括：

模型训练接口

POST http://127.0.0.1:18180/v1/preprocess_and_tran

用于处理视频和音频，生成数字人模型。详细参数可参考src/main/service/model.js

音频合成接口

POST http://127.0.0.1:18180/v1/invoke

通过文本生成克隆声音，支持多种参数调整。详细参数可参考src/main/service/voice.js

视频合成接口

POST http://127.0.0.1:8383/easy/submit

将音频与数字人形象合成视频，支持进度查询。详细参数可参考src/main/service/video.js

总结与展望

HeyGem.ai作为一款开源数字人项目，彻底打破了商业平台的成本壁垒，让普通用户也能轻松拥有自己的数字分身。通过本文介绍的步骤，你已经掌握了从环境部署到数字人创建的全流程。

项目目前仍在快速迭代中，社区活跃度高，每天都有新问题被解决。如果你在使用过程中遇到困难，可以查阅常见问题文档或参与项目讨论。

随着AI技术的不断发展，未来我们有理由相信，HeyGem.ai将支持更自然的表情、更流畅的动作和更广泛的应用场景。现在就加入这个开源社区，一起探索数字人的无限可能！

如果你觉得本教程对你有帮助，请点赞、收藏并关注，后续将带来更多HeyGem.ai高级应用技巧和优化指南。

Duix-Avatar

项目地址：https://gitcode.com/GitHub_Trending/he/Duix-Avatar

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.45 K

809