JoyHallo项目安装与配置指南

2026-01-30 04:02:14作者：霍妲思

1. 项目基础介绍

JoyHallo是一个数字人模型，主要用于生成普通话视频。该项目基于深度学习技术，通过音频驱动视频生成的方式，实现从音频到视频的转换。项目的目标是创建一个能够生成高质量普通话视频的模型，同时具备跨语言生成能力。项目主要使用Python编程语言。

在开始安装之前，请确保您的系统满足以下要求：

创建虚拟环境

conda create -n joyhallo python=3.10 -y
conda activate joyhallo

安装FFmpeg

sudo apt-get update
sudo apt-get install ffmpeg -y

准备模型权重

下载基础权重

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo pretrained_models

下载chinese-wav2vec2-base模型

cd pretrained_models
git lfs install
git clone https://huggingface.co/TencentGameMate/chinese-wav2vec2-base

下载JoyHallo模型

git lfs install
git clone https://huggingface.co/jdh-algo/JoyHallo-v1 pretrained_models/joyhallo

准备数据
- 确保您的数据符合以下目录结构，并且满足之前提到的要求：
```
jdh-Hallo/
|-- videos/
    |-- 0001.mp4
    |-- 0002.mp4
    |-- 0003.mp4
    `-- 0004.mp4
```
- 使用以下命令处理数据集：
```
python -m scripts.data_preprocess --input_dir jdh-Hallo/videos --step 1 -p 1 -r 0
python -m scripts.data_preprocess --input_dir jdh-Hallo/videos --step 2 -p 1 -r 0
python scripts/extract_meta_info_stage1.py -r jdh-Hallo -n jdh-Hallo
python scripts/extract_meta_info_stage2.py -r jdh-Hallo -n jdh-Hallo
```
- 注意：执行步骤1和步骤2按顺序，因为它们执行不同的任务。步骤1将视频转换为帧，从每个视频中提取音频，并生成所需的掩码。步骤2使用InsightFace生成面部嵌入和使用Chinese wav2vec2生成音频嵌入，并且需要一个GPU。对于并行处理，使用-p和-r参数。