WhisperX项目中数字时间戳缺失问题的分析与解决方案

2025-05-15 17:29:07作者：邬祺芯Juliet

在语音识别领域，WhisperX作为基于Whisper的增强工具，其输出的带时间戳的JSON结果在后期处理中发挥着重要作用。近期用户反馈的一个典型问题是：当识别结果中包含数字时，这些数字在JSON输出中会缺失关键的时间戳信息（start/end）和置信度分数（score），导致生成SRT字幕文件时数字内容丢失。

问题现象深度解析

通过分析用户提供的案例，我们发现当音频中包含"1, 2, 3, 250"等数字时，JSON输出中的对应字段呈现以下特征：

单词级对齐中，数字条目仅有"word"字段，缺少时间戳和置信度
字符级对齐同样存在数字字符缺失时间信息的情况
这种现象会导致依赖时间戳数据的后期处理流程（如字幕生成）自动过滤掉数字内容

技术背景探究

该问题本质上源于语音识别系统对数字的特殊处理方式。在传统ASR系统中，数字通常有两种表示选择：

阿拉伯数字形式（如"1"）
文本拼写形式（如"one"）

WhisperX的早期版本在处理数字时，默认输出阿拉伯数字形式，但未将其纳入强制对齐的计算流程，导致时间戳信息缺失。这与非数字词汇的处理逻辑存在不一致性。

已验证的解决方案

目前该问题已在WhisperX v3.3.3版本中通过核心修复得到解决。对于仍在使用旧版本或需要临时解决方案的用户，可采用以下方法：

版本升级方案 升级至v3.3.3或更高版本，该版本已完善数字对齐的逻辑，确保数字获得与常规词汇相同的时间戳处理。
参数替代方案 使用--suppress_numerals参数强制将数字转换为文本形式：
```
whisperx audio.wav --suppress_numerals
```
此方案会将"1"转换为"one"，"250"转换为"two hundred fifty"等，由于文本形式参与对齐计算，因此可获得完整的时间戳信息。

技术建议

对于开发者处理类似语音识别后处理任务时，建议：

始终验证特殊字符（数字、符号等）的时间戳完整性
考虑实现fallback机制，当检测到时间戳缺失时：
- 可采用相邻词汇的时间戳进行插值
- 或触发警告提示人工校验
对于关键数字内容，优先考虑使用--suppress_numerals参数确保可追溯性

总结

WhisperX的时间戳对齐功能在不断演进中，数字时间戳问题的解决体现了开源项目对细节完善的追求。用户在处理包含重要数字的语音内容时，选择适当版本或参数即可获得完整的对齐数据，为后续的字幕生成、内容分析等应用场景提供可靠基础。这也提醒我们在语音处理pipeline中，需要特别关注特殊字符的处理一致性。

whisperX

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

项目地址：https://gitcode.com/gh_mirrors/wh/whisperX

登录后查看全文