Wav2Lip UHQ 使用教程

2026-01-30 04:17:35作者：胡易黎Nicole

Wav2Lip UHQ extension for Automatic1111

项目地址：https://gitcode.com/gh_mirrors/sd/sd-wav2lip-uhq

1. 项目介绍

Wav2Lip UHQ 是一个开源项目，基于 Automatic1111 的 Stable Diffusion WebUI 扩展。它通过特定的后处理技术，提高了 Wav2Lip 工具生成的唇同步视频的质量。该项目允许用户选择视频和语音文件（wav 或 mp3 格式），然后生成唇同步视频。

2. 项目快速启动

环境准备

安装最新版本的 Stable Diffusion WebUI Automatic1111。
下载并安装 FFmpeg，确保可以从命令行访问。

安装

启动 Automatic1111。
在扩展页面中，使用“从 URL 安装”功能，输入以下 URL 并点击“安装”。
在“已安装”标签中，点击“应用并退出”。
如果没有看到“Wav2Lip UHQ”标签，请重新启动 Automatic1111。

配置模型权重

从以下链接下载模型权重，并将其放置在相应的目录中（注意文件名，特别是 s3fd）：

Wav2Lip: 下载链接，放置在 extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\
Wav2Lip + GAN: 下载链接，放置在 extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\
s3fd: 下载链接，放置在 extensions\sd-wav2lip-uhq\scripts\wav2lip\face_detection\detection\sfd\s3fd.pth
landmark predicator: 下载链接，放置在 extensions\sd-wav2lip-uhq\scripts\wav2lip\predicator\shape_predictor_68_face_landmarks.dat

使用

选择一个包含人脸的视频（avi 或 mp4 格式）。
如果需要，选择一个用于人脸交换的图像。
选择语音文件或使用 bark 语音合成。
配置 bark 的相关选项，如语言、性别、说话人等。
在文本区域中输入文本提示。
选择一个检查点。
根据需要调整其他设置，如填充、是否平滑、视频大小调整等。
开始生成唇同步视频。

3. 应用案例和最佳实践

人脸交换：使用项目内置的人脸交换功能，可以为视频中的角色更换不同的面孔。
语音克隆：通过语音克隆功能，可以复制视频中的声音，用于其他视频的配音。
视频翻译：结合语音克隆，可以实现视频内容的翻译和语音匹配。

4. 典型生态项目

Wav2Lip UHQ 作为 Stable Diffusion WebUI 的扩展，可以与其他开源项目结合使用，例如：

语音识别：结合语音识别技术，自动生成视频中的语音脚本。
视频编辑：使用视频编辑工具，对生成的唇同步视频进行进一步的剪辑和调整。

Wav2Lip UHQ extension for Automatic1111

项目地址：https://gitcode.com/gh_mirrors/sd/sd-wav2lip-uhq

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

AI 将任意文档转换为精美可编辑的 PPTX 演示文稿 — 无需设计基础 | 包含 15 个案例、229 页内容

flutter_flutter