5分钟极速部署AI说话人脸系统:SadTalker新手安装指南
你还在为复杂的AI环境配置头疼?想在自己电脑上搭建会说话的人脸动画系统却被技术门槛劝退?本文将带你5分钟完成SadTalker的本地化部署,无需专业背景,全程复制粘贴即可实现从图片到动态说话人脸的全流程转换。读完本文你将获得:
- 兼容Windows/macOS/Linux的环境配置方案
- 自动化模型下载与依赖安装技巧
- WebUI界面快速启动与基础使用方法
- 常见错误的一键修复方案
项目简介
SadTalker是一个基于CVPR 2023论文开发的开源AI项目,能够将静态人脸图片与音频文件合成为自然的说话人脸动画。项目核心代码位于src/目录,包含音频转表情audio2exp_models/、音频转姿态audio2pose_models/和人脸渲染facerender/三大模块。官方提供了详细的技术文档docs/和示例资源examples/,支持中文语音驱动、全身体态模拟等高级功能。
环境准备
硬件要求
- 最低配置:CPU双核4线程,8GB内存,支持OpenGL 3.3的集成显卡
- 推荐配置:NVIDIA显卡(4GB以上显存),16GB内存,SSD存储(至少10GB空闲空间)
系统支持情况
| 操作系统 | 支持状态 | 特殊说明 |
|---|---|---|
| Windows 10/11 | ✅ 完全支持 | 需要安装Visual Studio运行库 |
| macOS 13+ | ✅ 部分支持 | M1/M2芯片需Rosetta转译 |
| Linux (Ubuntu 20.04+) | ✅ 完全支持 | 需手动安装ffmpeg依赖 |
安装步骤
1. 获取项目代码
打开终端执行以下命令克隆仓库:
git clone https://gitcode.com/GitHub_Trending/sa/SadTalker
cd SadTalker
2. 创建虚拟环境
Windows用户
# 安装Anaconda(已安装可跳过)
# 下载地址:https://repo.anaconda.com/archive/Anaconda3-2023.03-Windows-x86_64.exe
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio
conda install ffmpeg
pip install -r requirements.txt
macOS用户
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio
conda install ffmpeg
pip install -r requirements.txt
pip install dlib # macOS需单独安装dlib
Linux用户
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
sudo apt-get install ffmpeg
pip install -r req.txt
3. 下载模型文件
执行自动化模型下载脚本:
bash scripts/download_models.sh
脚本将自动创建checkpoints/目录并下载约5GB模型文件,包含:
- 音频转表情模型:auido2exp_00300-model.pth
- 人脸渲染模型:SadTalker_V0.0.2_512.safetensors
- 面部特征点检测模型:shape_predictor_68_face_landmarks.dat
4. 启动Web界面
python launcher.py
成功启动后,终端将显示类似以下信息:
Running on local URL: http://127.0.0.1:7860
To create a public link, set `share=True` in `launch()`.
打开浏览器访问 http://127.0.0.1:7860 即可看到SadTalker的Web操作界面。
基础使用教程
界面功能介绍
Web界面主要包含以下功能区域:
- 源图片上传区:支持JPG/PNG格式,推荐正面人脸照片
- 驱动音频上传区:支持WAV/MP3格式,建议时长5-30秒
- 参数设置区:
- 表情强度:控制面部动画夸张程度(0.5-2.0)
- 输出分辨率:256/512像素可选
- 增强模式:开启后提升画质但增加渲染时间
- 生成按钮:点击开始处理
- 结果展示区:显示生成的视频及下载按钮
快速上手示例
- 上传示例图片:examples/source_image/happy.png
- 上传示例音频:examples/driven_audio/chinese_news.wav
- 参数保持默认,点击"Generate"按钮
- 等待约30秒(取决于电脑配置),即可在结果区看到生成的说话人脸视频
常见问题解决
模型下载失败
若scripts/download_models.sh执行失败,可手动创建checkpoints目录并下载模型:
mkdir checkpoints
# 访问项目文档中的模型下载链接手动下载后放入checkpoints目录
启动时报错"ModuleNotFoundError"
# 尝试重新安装依赖
pip install -r requirements.txt --force-reinstall
生成视频无声音
确保已安装ffmpeg:
# Windows用户
conda install ffmpeg -y
# Linux用户
sudo apt-get install ffmpeg -y
# macOS用户
brew install ffmpeg
界面无法打开
检查端口是否被占用,或尝试指定其他端口启动:
python launcher.py --server-port 7861
高级配置
GPU加速设置
若使用NVIDIA显卡,确保已安装CUDA Toolkit 11.3+,并验证PyTorch是否支持GPU:
python -c "import torch; print(torch.cuda.is_available())"
返回True表示GPU加速已启用,可显著提升生成速度。
命令行模式使用
除Web界面外,也可通过命令行直接生成视频:
python inference.py --driven_audio examples/driven_audio/chinese_poem1.wav \
--source_image examples/source_image/full_body_1.png \
--result_dir results
总结
通过本文介绍的步骤,你已成功部署了SadTalker AI说话人脸系统。该项目不仅提供了直观的Web操作界面,还支持通过app_sadtalker.py进行二次开发。更多高级功能如参考视频驱动、面部增强等,可参考官方最佳实践文档docs/best_practice.md。
若在使用过程中遇到其他问题,可查阅常见问题解答docs/FAQ.md或提交issue获取社区支持。
提示:定期执行
git pull获取项目更新,体验最新功能和优化。
喜欢本教程请点赞收藏,关注获取更多AI应用部署指南。下期将介绍如何通过SadTalker API将说话人脸功能集成到自己的应用中。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00

