WhisperX项目中TranscriptionOptions参数缺失问题的分析与解决

2025-05-15 07:14:47作者：宣利权Counsellor

问题背景

在使用WhisperX进行语音转录时，开发者可能会遇到一个常见的错误提示："TranscriptionOptions.new() missing 3 required positional arguments: 'max_new_tokens', 'clip_timestamps', and 'hallucination_silence_threshold'"。这个问题主要出现在WhisperX 3.1.2版本中，是由于代码更新与PyPI发布的版本不同步导致的兼容性问题。

问题本质

WhisperX是基于faster-whisper构建的语音转录工具，它通过TranscriptionOptions类来配置转录过程中的各种参数。在faster-whisper 1.0.0版本更新后，TranscriptionOptions类新增了三个必填参数：

max_new_tokens：控制生成的最大token数量
clip_timestamps：用于剪辑时间戳
hallucination_silence_threshold：静音阈值检测参数

然而，PyPI上发布的WhisperX 3.1.2版本并未同步这一变更，导致在调用转录功能时出现参数缺失的错误。

解决方案

方法一：手动修改asr.py文件

开发者可以定位到WhisperX安装目录下的asr.py文件，在default_asr_options字典中添加缺失的三个参数：

"max_new_tokens": None,
"clip_timestamps": None,
"hallucination_silence_threshold": None,

这些参数应添加在"suppress_numerals": False之后的位置。这种方法直接有效，但需要开发者手动修改库文件。

方法二：通过参数传递

在调用load_model函数时，可以通过asr_options参数直接传递这些缺失的参数：

options = {
    "max_new_tokens": None,
    "clip_timestamps": None,
    "hallucination_silence_threshold": None,
}

model = whisperx.load_model("large-v2", device, compute_type=compute_type, asr_options=options)

这种方法更为优雅，不需要修改库文件，推荐在生产环境中使用。

方法三：从源码安装

开发者也可以选择直接从GitHub仓库安装最新版本的WhisperX，确保代码是最新的：

pip install git+https://github.com/m-bain/whisperX.git

这种方法能获取到最新的修复和功能，但可能不如PyPI版本稳定。

后续版本更新

值得注意的是，这个问题在后续版本的WhisperX中已经得到修复。项目维护者已经承诺从2025年1月1日起正式接管PyPI上的WhisperX项目发布，移除之前非官方的版本，以避免类似的兼容性问题。

最佳实践建议

在使用WhisperX时，建议检查版本兼容性，特别是faster-whisper的版本
对于生产环境，建议锁定依赖版本，避免自动更新带来的意外问题
定期关注项目更新，及时获取最新的修复和功能
在Docker等容器化环境中部署时，确保基础镜像中的依赖版本与开发环境一致

通过理解这个问题的本质和掌握多种解决方案，开发者可以更顺利地使用WhisperX进行语音转录工作，避免因版本不匹配导致的中断。

whisperX

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

项目地址：https://gitcode.com/gh_mirrors/wh/whisperX

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。