JoyVASA：音频驱动面部动画全流程实现指南

2026-04-25 09:19:09作者：秋泉律Samson

JoyVASA是基于扩散模型的跨物种面部动画生成工具，支持通过音频驱动实现高质量的人类与动物面部表情生成。该工具分离动态面部表情和静态3D面部表示，提供高效的动画生成能力，兼容多语言音频输入。

探索核心功能

支持跨物种动画生成

实现人类与动物面部的音频驱动动画，通过分离动态表情与静态3D表示，保持主体特征的同时生成自然面部运动。

双模态音频编码

提供wav2vec2-base和hubert-chinese两种音频编码器选择，适应不同语言场景的表情驱动需求。

灵活推理模式

支持命令行直接推理与Web界面交互两种模式，满足开发者与终端用户的不同使用场景。

可视化推理流程

图1：JoyVASA音频驱动面部动画生成流程图，展示从音频输入到视频输出的完整处理链路

配置开发环境

部署基础环境

conda create -n joyvasa python=3.10 -y
conda activate joyvasa
pip install -r requirements.txt

安装系统依赖

sudo apt-get update
sudo apt-get install ffmpeg -y

编译可选组件

cd src/utils/dependencies/XPose/models/UniPose/ops
python setup.py build install
cd ../../../../../../

注意事项

建议使用conda虚拟环境隔离依赖，避免版本冲突
确保CUDA版本≥12.1以获得最佳性能
动物动画功能需额外编译MultiScaleDeformableAttention组件

部署模型资源

克隆项目仓库

git clone https://gitcode.com/gh_mirrors/jo/JoyVASA
cd JoyVASA

下载预训练权重

# 安装git-lfs
git lfs install

# 下载JoyVASA运动生成器权重
git clone https://huggingface.co/jdh-algo/JoyVASA pretrained_weights/JoyVASA

# 下载音频编码器权重（二选一）
git clone https://huggingface.co/TencentGameMate/chinese-hubert-base pretrained_weights/hubert-chinese
# 或
git clone https://huggingface.co/facebook/wav2vec2-base-960h pretrained_weights/wav2vec2-base

# 下载LivePortraits权重
pip install -U "huggingface_hub[cli]"
huggingface-cli download KwaiVGI/LivePortrait --local-dir pretrained_weights/LivePortrait --exclude "*.git*" "README.md" "docs"

注意事项

模型总大小约20GB，确保磁盘空间充足
建议使用学术网络下载以获得更快速度
权重文件需保持默认目录结构，否则需修改配置文件

运行推理任务

命令行推理

# 动物面部动画
python inference.py -r assets/examples/imgs/joyvasa_001.png -a assets/examples/audios/joyvasa_001.wav --animation_mode animal --cfg_scale 2.0

# 人类面部动画
python inference.py -r assets/examples/imgs/joyvasa_003.png -a assets/examples/audios/joyvasa_003.wav --animation_mode human --cfg_scale 2.0

启动Web界面

python app.py

启动后访问 http://127.0.0.1:7862 即可使用交互界面

注意事项

调整cfg_scale参数控制表情强度（建议范围1.0-3.0）
输入图片建议分辨率不低于512x512
音频长度建议控制在30秒以内以获得最佳效果

应用场景实践

虚拟主播驱动

使用真人照片配合语音生成虚拟主播视频，适用于短视频创作与直播场景。推荐使用assets/examples/imgs/joyvasa_005.png作为参考图像测试。

动物表情生成

通过宠物照片与音频创建拟人化表情动画，可应用于宠物内容创作。示例命令使用assets/examples/imgs/joyvasa_001.png作为输入。

多语言内容适配

切换不同音频编码器实现多语言表情生成，hubert-chinese适合中文语音，wav2vec2-base适合英文语音。

注意事项

面部角度建议正面拍摄，避免过大偏转影响动画效果
复杂背景可能导致面部特征提取不准确，建议使用纯色背景
音频质量直接影响动画自然度，建议使用清晰无杂音的语音素材

JoyVASA

Diffusion-based Portrait and Animal Animation

项目地址：https://gitcode.com/gh_mirrors/jo/JoyVASA

登录后查看全文

JoyVASA：音频驱动面部动画全流程实现指南

探索核心功能

支持跨物种动画生成

双模态音频编码

灵活推理模式

可视化推理流程

配置开发环境

部署基础环境

安装系统依赖

编译可选组件

注意事项

部署模型资源

克隆项目仓库

下载预训练权重

注意事项

运行推理任务

命令行推理

启动Web界面

注意事项

应用场景实践

虚拟主播驱动

动物表情生成

多语言内容适配

注意事项

热门内容推荐

最新内容推荐

项目优选

JoyVASA：音频驱动面部动画全流程实现指南

探索核心功能

支持跨物种动画生成

双模态音频编码

灵活推理模式

可视化推理流程

配置开发环境

部署基础环境

安装系统依赖

编译可选组件

注意事项

部署模型资源

克隆项目仓库

下载预训练权重

注意事项

运行推理任务

命令行推理

启动Web界面

注意事项

应用场景实践

虚拟主播驱动

动物表情生成

多语言内容适配

注意事项

相关内容推荐

热门内容推荐

最新内容推荐

项目优选