Whisper-Timestamped 项目与 OpenAI Whisper 最新版本兼容性问题分析

2025-07-01 14:42:06作者：廉彬冶Miranda

问题背景

近期，OpenAI Whisper 项目发布了 v20240930 版本更新，该版本引入了一系列性能优化和新特性。然而，这一更新导致了依赖 Whisper 核心功能的 whisper-timestamped 项目出现兼容性问题。具体表现为在调用 transcribe 函数时抛出 "'NoneType' object has no attribute 'shape'" 错误。

问题根源

经过技术分析，该问题的根本原因在于 OpenAI Whisper v20240930 版本中引入的 SDPA（Scaled Dot Product Attention）优化机制。在这一优化中：

当系统支持 F.scaled_dot_product_attention 时，Whisper 会优先使用这一高效实现
使用 SDPA 时，注意力权重（attention weights）不会被显式返回，而是设为 None
whisper-timestamped 项目依赖这些注意力权重来进行时间戳对齐等高级功能

影响范围

该问题影响所有使用以下配置的用户：

whisper-timestamped 1.15.4 版本
OpenAI Whisper v20240930 或更新版本
运行在支持 SDPA 的硬件环境上（如较新的 NVIDIA GPU）

解决方案

目前有三种可行的解决方案：

方案一：降级 OpenAI Whisper

将 OpenAI Whisper 降级至 v20231117 版本：

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git@v20231117

方案二：使用 SDPA 禁用上下文

在代码中显式禁用 SDPA 优化：

from whisper.model import disable_sdpa

with disable_sdpa():
    results = whisper_timestamped.transcribe(model, audio)

方案三：使用中间版本

安装 OpenAI Whisper v20240927 版本，该版本支持新模型但不包含 SDPA 优化：

pip install openai-whisper==20240927

技术细节深入

SDPA 优化是 PyTorch 2.0 引入的高效注意力机制实现，它通过融合多个操作来提升计算效率。然而，这种优化牺牲了中间注意力权重的可访问性，这对依赖这些权重进行后处理的应用（如 whisper-timestamped）造成了兼容性问题。

在 Whisper 的原始实现中，注意力权重是通过完整的计算流程获得的，这使得后续处理成为可能。而 SDPA 优化后的实现将这些权重计算过程黑盒化，提高了效率但降低了灵活性。

长期解决方案展望

从技术架构角度看，whisper-timestamped 项目可能需要：

重构时间戳对齐算法，减少对原始注意力权重的依赖
实现与 SDPA 兼容的权重提取机制
提供更灵活的注意力控制接口

这些改进将确保项目既能利用最新的性能优化，又不丧失核心功能。

用户建议

对于不同使用场景的用户，我们建议：

追求稳定性的用户：采用方案一，降级至 v20231117
需要使用新模型但不需要最高性能的用户：采用方案三，使用 v20240927
需要最新性能优化的用户：采用方案二，但需注意可能的性能折衷

项目维护者正在积极解决这一兼容性问题，建议用户关注后续更新。

whisper-timestamped

Multilingual Automatic Speech Recognition with word-level timestamps and confidence

项目地址：https://gitcode.com/gh_mirrors/wh/whisper-timestamped

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理