5分钟极速部署AI说话人脸系统：SadTalker新手安装指南

2026-02-04 04:58:26作者：温玫谨Lighthearted

你还在为复杂的AI环境配置头疼？想在自己电脑上搭建会说话的人脸动画系统却被技术门槛劝退？本文将带你5分钟完成SadTalker的本地化部署，无需专业背景，全程复制粘贴即可实现从图片到动态说话人脸的全流程转换。读完本文你将获得：

兼容Windows/macOS/Linux的环境配置方案
自动化模型下载与依赖安装技巧
WebUI界面快速启动与基础使用方法
常见错误的一键修复方案

项目简介

SadTalker是一个基于CVPR 2023论文开发的开源AI项目，能够将静态人脸图片与音频文件合成为自然的说话人脸动画。项目核心代码位于src/目录，包含音频转表情audio2exp_models/、音频转姿态audio2pose_models/和人脸渲染facerender/三大模块。官方提供了详细的技术文档docs/和示例资源examples/，支持中文语音驱动、全身体态模拟等高级功能。

环境准备

硬件要求

最低配置：CPU双核4线程，8GB内存，支持OpenGL 3.3的集成显卡
推荐配置：NVIDIA显卡(4GB以上显存)，16GB内存，SSD存储(至少10GB空闲空间)

系统支持情况

操作系统	支持状态	特殊说明
Windows 10/11	✅ 完全支持	需要安装Visual Studio运行库
macOS 13+	✅ 部分支持	M1/M2芯片需Rosetta转译
Linux (Ubuntu 20.04+)	✅ 完全支持	需手动安装ffmpeg依赖

安装步骤

1. 获取项目代码

打开终端执行以下命令克隆仓库：

git clone https://gitcode.com/GitHub_Trending/sa/SadTalker
cd SadTalker

2. 创建虚拟环境

Windows用户

# 安装Anaconda(已安装可跳过)
# 下载地址：https://repo.anaconda.com/archive/Anaconda3-2023.03-Windows-x86_64.exe

conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio
conda install ffmpeg
pip install -r requirements.txt

macOS用户

conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio
conda install ffmpeg
pip install -r requirements.txt
pip install dlib  # macOS需单独安装dlib

Linux用户

conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
sudo apt-get install ffmpeg
pip install -r req.txt

3. 下载模型文件

执行自动化模型下载脚本：

bash scripts/download_models.sh

脚本将自动创建checkpoints/目录并下载约5GB模型文件，包含：

音频转表情模型：auido2exp_00300-model.pth

人脸渲染模型：SadTalker_V0.0.2_512.safetensors

面部特征点检测模型：shape_predictor_68_face_landmarks.dat

4. 启动Web界面

python launcher.py

成功启动后，终端将显示类似以下信息：

Running on local URL:  http://127.0.0.1:7860
To create a public link, set `share=True` in `launch()`.

打开浏览器访问 http://127.0.0.1:7860 即可看到SadTalker的Web操作界面。

基础使用教程

界面功能介绍

Web界面主要包含以下功能区域：

源图片上传区：支持JPG/PNG格式，推荐正面人脸照片
驱动音频上传区：支持WAV/MP3格式，建议时长5-30秒
参数设置区：
- 表情强度：控制面部动画夸张程度(0.5-2.0)
- 输出分辨率：256/512像素可选
- 增强模式：开启后提升画质但增加渲染时间
生成按钮：点击开始处理
结果展示区：显示生成的视频及下载按钮

快速上手示例

上传示例图片：examples/source_image/happy.png
上传示例音频：examples/driven_audio/chinese_news.wav
参数保持默认，点击"Generate"按钮
等待约30秒(取决于电脑配置)，即可在结果区看到生成的说话人脸视频

常见问题解决

模型下载失败

若scripts/download_models.sh执行失败，可手动创建checkpoints目录并下载模型：

mkdir checkpoints
# 访问项目文档中的模型下载链接手动下载后放入checkpoints目录

启动时报错"ModuleNotFoundError"

# 尝试重新安装依赖
pip install -r requirements.txt --force-reinstall

生成视频无声音

确保已安装ffmpeg：

# Windows用户
conda install ffmpeg -y

# Linux用户
sudo apt-get install ffmpeg -y

# macOS用户
brew install ffmpeg

界面无法打开

检查端口是否被占用，或尝试指定其他端口启动：

python launcher.py --server-port 7861

高级配置

GPU加速设置

若使用NVIDIA显卡，确保已安装CUDA Toolkit 11.3+，并验证PyTorch是否支持GPU：

python -c "import torch; print(torch.cuda.is_available())"

返回True表示GPU加速已启用，可显著提升生成速度。

命令行模式使用

除Web界面外，也可通过命令行直接生成视频：

python inference.py --driven_audio examples/driven_audio/chinese_poem1.wav \
                   --source_image examples/source_image/full_body_1.png \
                   --result_dir results