如何用Whisper Diarization实现AI语音转写+说话人分离？超简单教程来了！

2026-02-05 04:33:49作者：咎岭娴Homer

想让AI自动识别音频中的说话人身份并生成带角色标签的文字稿吗？Whisper Diarization就是你的终极解决方案！这款基于OpenAI Whisper的开源工具，能同时完成语音识别（ASR）和说话人分离（Speaker Diarization），让多人对话转录变得前所未有的简单高效 ✨

🚀 什么是Whisper Diarization？

Whisper Diarization是一个将语音转文字与说话人识别完美结合的工具链。它的核心原理是：

用OpenAI Whisper生成高精度转录文本
通过NeMo的MarbleNet进行语音活动检测（VAD）
借助TitaNet提取说话人特征并分角色
最终输出带时间戳和说话人标签的结构化文字稿

整个流程在diarize.py和helpers.py中实现，无需复杂配置即可上手！

📸 工作流程解析

下面这张图展示了Whisper Diarization的全流程（示意图）：
[注：实际项目中未发现图片文件，此处建议添加语音转写+分离流程图]

核心技术模块：

语音提取：使用Facebook Demucs分离人声与背景音
精准对齐：通过ctc-forced-aligner校正时间戳
角色识别：Nvidia NeMo的TitaNet模型提取说话人特征
标点修复：基于标点模型优化句子分割

🔧 超简单安装步骤

前置要求

Python ≥ 3.10（3.9需手动安装依赖）
安装FFMPEG和Cython：

# Ubuntu/Debian
sudo apt update && sudo apt install cython3 ffmpeg

# MacOS (Homebrew)
brew install cython ffmpeg

一键安装

git clone https://gitcode.com/GitHub_Trending/wh/whisper-diarization
cd whisper-diarization
pip install -c constraints.txt -r requirements.txt

💻 3步快速使用指南

基础命令

python diarize.py -a 你的音频文件.opus

高级参数（可选）

# 使用大型模型+指定语言
python diarize.py -a meeting.mp3 --whisper-model large --language zh

# 禁用人声分离（加快速度）
python diarize.py -a podcast.wav --no-stem

# 调整批处理大小（解决内存不足）
python diarize.py -a lecture.flac --batch-size 8

并行处理版本

如果你的电脑显存 ≥ 10GB，试试更快的并行版本：

python diarize_parallel.py -a 长音频.m4a

📊 最佳应用场景

1. 会议记录自动化

→ 自动区分参会人发言，生成结构化会议纪要

2. 播客字幕生成

→ 为多人对话播客添加带 speakers 标签的字幕文件

3. 访谈内容分析

→ 快速提取不同受访者的观点和语录

⚠️ 已知限制与解决方案

重叠说话：目前无法处理多人同时发言场景
→ workaround：尽量选择单人轮流发言的音频
长音频内存问题：
→ 解决：使用--batch-size 0禁用批处理或拆分音频

🛠️ 项目结构速览

whisper-diarization/
├── diarize.py          # 主程序入口
├── diarize_parallel.py # 并行处理版本
├── helpers.py          # 核心功能实现
├── diarization/msdd/   # NeMo配置文件
└── tests/assets/       # 测试音频示例