解锁实时语音转文字全攻略：从基础配置到多格式字幕生成

2026-04-30 09:46:00作者：胡唯隽

在当今信息爆炸的时代，实时语音转文字工具已经成为提高工作效率的必备神器。无论是会议记录、视频字幕制作还是直播实时互动，一款强大的语音转文字工具都能让你的工作事半功倍。今天，我们就来手把手教你如何使用WhisperLiveKit这款全本地实时语音转文字和说话人分离系统，轻松实现多格式字幕生成，满足你在不同场景下的需求。

1 明确场景需求：你需要什么样的语音转文字功能

在开始使用WhisperLiveKit之前，首先要明确自己的使用场景。不同的场景对语音转文字的需求各不相同，只有明确了需求，才能更好地配置和使用这款工具。

会议记录场景

在会议记录场景中，你可能需要完整记录会议内容，包括每个发言人的讲话内容和时间。这时候，你需要工具具备准确的说话人识别功能和完整的时间戳记录，以便后续整理和查阅会议纪要。

视频字幕制作场景

如果你是一名视频创作者，那么视频字幕制作一定是你经常遇到的需求。这时候，你需要工具能够将语音转换为标准的字幕格式，如SRT、VTT等，并且字幕的时间戳要与视频画面精确同步。

实时直播场景

在实时直播场景中，低延迟是关键。你需要工具能够快速将主播的语音转换为文字，并实时推送到观众端，以便观众更好地理解直播内容。

2 了解核心功能：WhisperLiveKit能为你做什么

WhisperLiveKit作为一款强大的实时语音转文字工具，具备多种核心功能，能够满足不同场景的需求。

多语言转录功能

WhisperLiveKit支持多种语言的转录，无论你是需要转录中文、英文还是其他语言，它都能轻松应对。这一功能在国际会议、跨语言交流等场景中非常实用。

说话人识别功能

该功能能够自动识别不同的说话人，并在转录结果中标注出来。这样，在会议记录或多人对话场景中，你可以清晰地分辨出每个人的发言内容。

多格式输出功能

WhisperLiveKit支持多种输出格式，如JSON、SRT、VTT、TXT等。你可以根据自己的需求选择合适的输出格式，方便后续的编辑和使用。

图：WhisperLiveKit系统架构图，展示了实时语音转文字和说话人分离的完整流程，包含FastAPI服务器、前端、音频处理器、转录引擎、说话人分离引擎和翻译引擎等模块

3 掌握实现路径：3步完成格式配置与转换

⚙️ 3.1 基础配置调整

要实现不同格式的输出，首先需要进行基础配置调整。在WhisperLiveKit中，你可以通过修改whisperlivekit/basic_server.py文件来配置输出格式。

找到文件中的output_formats配置项，它定义了支持的输出格式列表。

# 输出格式配置选项，在这里添加或删除你需要的格式
output_formats = ["json", "srt", "vtt", "txt"]  # 推荐设置：根据实际需求选择，一般建议保留json和srt格式

根据你的需求，在列表中添加或删除对应的格式。例如，如果你只需要JSON和SRT格式，就可以将配置修改为output_formats = ["json", "srt"]。

📝 3.2 SRT格式转换实现

SRT格式是一种常用的字幕格式，下面我们来看看如何实现JSON到SRT格式的转换。系统通过whisperlivekit/whisper/timing.py文件处理时间戳转换，确保字幕同步精确。

首先，确保你已经在基础配置中启用了SRT格式。
当你进行语音转录时，系统会自动将转录结果转换为SRT格式。你可以在输出目录中找到生成的SRT文件。

👥 3.3 说话人分离输出

whisperlivekit/diarization/模块负责识别不同说话人，并在输出中标注。

确保说话人分离功能已启用。
转录完成后，在输出结果中，你会看到每个说话人的发言内容都被标注了说话人标识和时间戳，例如：说话人1 [00:00:06-00:00:16]：语音识别技术已经显著改进...

4 探索高级技巧：让你的语音转文字更高效

🕒 4.1 自定义时间戳格式

在whisperlivekit/tokens_alignment.py文件中，你可以调整时间戳的精度，以满足不同场景的需求。例如，如果你需要更精确的时间戳，可以修改相关参数来提高时间戳的精度。

📁 4.2 批量转换工具

利用scripts/convert_hf_whisper.py脚本，你可以实现多文件格式的批量转换，大大提高工作效率。

打开终端，进入项目目录。
运行以下命令：python scripts/convert_hf_whisper.py --input_dir 输入目录 --output_dir 输出目录 --format srt，其中输入目录是存放需要转换文件的目录，输出目录是转换后文件的保存目录，--format srt指定输出格式为SRT。