JoyVASA：AI面部动画制作全攻略——从静态图像到动态视频的实现指南

2026-04-25 09:15:45作者：伍霜盼Ellen

JoyVASA是一款基于扩散模型（Diffusion Model）的音频驱动面部动画生成工具，能够让静态图像随声音自然动起来。无论是人类肖像还是动物面部，都能通过音频输入生成栩栩如生的动态表情。本文将带你从零开始搭建环境、部署模型，并掌握音频驱动动画、3D面部生成的核心技能，让创意内容制作变得简单高效。

一、项目概览

1.1 什么是JoyVASA

JoyVASA采用创新的动态与静态分离技术，将面部动画分解为表情动态和3D面部表示两部分，通过音频信号驱动静态图像生成自然流畅的面部动作。该工具支持多语言音频输入，可广泛应用于短视频创作、虚拟主播、游戏角色动画等场景。

1.2 核心功能特点

跨物种支持：同时支持人类和动物面部动画生成
高质量输出：基于扩散模型生成细节丰富的面部表情
灵活部署：提供命令行和Web界面两种操作方式
参数可调：通过配置参数控制动画风格和表情强度

1.3 硬件选择建议

最低配置：NVIDIA显卡（6GB VRAM）、16GB内存、50GB可用存储
推荐配置：RTX 4060以上显卡（8GB+ VRAM）、32GB内存、SSD存储
系统支持：Ubuntu 20.04或Windows 11，需安装CUDA 12.1

图1：JoyVASA的音频驱动动画生成流程图，展示了从音频和图像输入到视频输出的完整过程

二、环境配置

2.1 准备基础环境

现在你需要创建并激活一个专用的Python环境：

📦 创建conda环境

conda create -n joyvasa python=3.10 -y
conda activate joyvasa

2.2 安装依赖包

接着安装项目所需的所有依赖：

🔧 安装Python依赖

# 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/jo/JoyVASA
cd JoyVASA

# 安装核心依赖
pip install -r requirements.txt

# 安装ffmpeg（Ubuntu系统）
sudo apt-get update
sudo apt-get install ffmpeg -y

2.3 编译可选组件

对于需要动物图像动画功能的用户，还需编译MultiScaleDeformableAttention组件：

🦜 安装动物动画支持组件

cd src/utils/dependencies/XPose/models/UniPose/ops
python setup.py build install
cd ../../../../../../  # 返回项目根目录

2.4 常见问题速查

如何解决CUDA版本冲突？

⚠️ 如果遇到"CUDA version mismatch"错误，请确保安装的PyTorch版本与系统CUDA版本匹配：

# 查看CUDA版本
nvcc --version

# 根据CUDA版本重新安装PyTorch
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

如何处理依赖安装失败？

💡 推荐使用国内镜像源加速安装：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

三、模型部署

3.1 准备模型文件

首先需要创建模型存储目录并下载预训练权重：

📥 创建模型目录

mkdir -p pretrained_weights
cd pretrained_weights

3.2 下载预训练权重

JoyVASA运动生成器模型

🚀 下载核心模型

git lfs install
git clone https://huggingface.co/jdh-algo/JoyVASA

音频编码器模型

根据需求选择以下一种音频编码器：

🎤 下载中文音频编码器（hubert-chinese）

git clone https://huggingface.co/TencentGameMate/chinese-hubert-base

🎧 下载英文音频编码器（wav2vec2-base）

git clone https://huggingface.co/facebook/wav2vec2-base-960h

LivePortraits模型

🎭 下载辅助模型

pip install -U "huggingface_hub[cli]"
huggingface-cli download KwaiVGI/LivePortrait --local-dir . --exclude "*.git*" "README.md" "docs"

3.3 模型目录结构

最终的pretrained_weights目录结构应如下所示：

pretrained_weights/
├── JoyVASA/                 # 运动生成器模型
├── chinese-hubert-base/     # 中文音频编码器
└── LivePortrait/            # LivePortraits模型

3.4 模型下载备选方案

如果通过上述方式下载失败，可以尝试手动下载：

访问模型对应的Hugging Face页面
点击"Files and versions"
下载所有.bin和.pth文件到对应目录

四、应用实践

4.1 基础使用：命令行推断

动物面部动画

以示例图片和音频生成动物动画：

🐶 生成动物动画

python inference.py -r assets/examples/imgs/joyvasa_001.png \
                   -a assets/examples/audios/joyvasa_001.wav \
                   --animation_mode animal \
                   --cfg_scale 2.0

图2：动物面部动画输入示例图——使用这张图片可以生成随音频动起来的小狗表情

人类面部动画

生成人类面部动画的命令：

👤 生成人类动画

python inference.py -r assets/examples/imgs/joyvasa_003.png \
                   -a assets/examples/audios/joyvasa_003.wav \
                   --animation_mode human \
                   --cfg_scale 2.0

图3：人类面部动画输入示例图——使用这张雕像图片可以生成拟人化的面部表情动画

4.2 高级参数：定制动画效果

调整表情强度

通过--cfg_scale参数控制动画表情的夸张程度，取值范围1.0-5.0：

# 生成更夸张的表情
python inference.py ... --cfg_scale 3.5

输出视频质量

使用--video_quality参数调整输出视频清晰度（0-100）：

# 生成高质量视频
python inference.py ... --video_quality 90

帧率控制

通过--fps参数设置输出视频的帧率：

# 设置为30帧/秒
python inference.py ... --fps 30

4.3 Web界面使用

启动可视化Web界面进行操作：

🌐 启动Web Demo

python app.py

启动后，在浏览器访问http://127.0.0.1:7862即可打开Web界面。在界面中，你可以：

上传自己的图片和音频文件
选择动画模式（人类/动物）
调整参数并实时预览效果
下载生成的动画视频

💡 提示：Web界面适合快速尝试不同参数组合，建议先在Web界面调试出满意效果，再用命令行进行批量处理。

4.4 最佳实践

图像选择：使用正面清晰、光照均匀的图像获得最佳效果
音频质量：尽量使用无噪音的音频，采样率建议为16kHz
参数调整：初次尝试建议使用默认参数，然后逐步调整cfg_scale
性能优化：生成高分辨率视频时，可先降低分辨率预览效果，满意后再提高分辨率

通过以上步骤，你已经掌握了JoyVASA的基本使用方法。无论是制作趣味短视频还是开发专业动画内容，JoyVASA都能为你提供高效、高质量的音频驱动面部动画解决方案。

JoyVASA

Diffusion-based Portrait and Animal Animation

项目地址：https://gitcode.com/gh_mirrors/jo/JoyVASA

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

985