【亲测免费】 Whisper JAX：闪电般快速的语音识别框架

2026-01-17 09:11:07作者：农烁颖Land

Whisper JAX 是一个针对 OpenAI 的 Whisper 模型优化的高效 JAX 实现。它基于 Hugging Face Transformers 的 Whisper 实现，提供了比原生 PyTorch 版本快 70倍 的运行速度，堪称当前最快的 Whisper 应用工具。

快速上手：兼容多平台的 JAX 编程

Whisper JAX 兼容 CPU、GPU 和 TPU，无论是独立应用还是作为推理端点都游刃有余。您可以通过简单的步骤，在 Cloud TPU 上快速启动，如在 Kaggle 笔记本中，仅需约 30 秒即可完成 30 分钟音频的转录。此外，该模型在 Hugging Face Spaces 中也有实时演示可供体验。

安装指南

确保已经安装了最新版本的 JAX 包之后，通过 pip 即可安装 Whisper JAX：

pip install git+https://github.com/sanchit-gandhi/whisper-jax.git

要更新到最新版本，只需运行：

pip install --upgrade --no-deps --force-reinstall git+https://github.com/sanchit-gandhi/whisper-jax.git

使用流程：高效管道处理

利用 FlaxWhisperPipeline 类，可以轻松进行预处理和后处理，以及数据并行计算。该类支持 JAX 的 pmap 函数进行跨设备数据并行，首次调用时会进行 JIT 编译，随后的调用将得益于缓存而大幅提升速度。

半精度计算与批处理

您可以选择半精度（jnp.float16 或 jnp.bfloat16）以加速计算，且不会影响模型权重精度。批处理功能允许将长音频分割为30秒段，并平行处理，实现实时高效的转录。正确选择批次大小，几乎无损准确率的同时，速度提升可达10倍。

功能多样化：任务定制与时间戳预测

除了默认的语音转文本外，还可以设置 task 参数实现语音翻译。启用 return_timestamps 将返回每个单词的时间戳，便于更精细的分析。

微调与自定义：灵活的模型使用方式

对于高级用户，可以选择直接使用模型，单独加载处理器，手动包装 pmap 来进行自定义处理。此外，支持从 PyTorch 检点转换为 Flax 并推送到 Hugging Face Hub，以便后续直接加载使用。

面向未来，超越边界

无论您是需要进行大规模音频转录，还是寻求高性能的语音识别解决方案，Whisper JAX 都是一个理想的选择。其卓越的速度性能和灵活性，为研究人员和开发人员提供了强大工具，解锁更多可能。

现在就加入 Whisper JAX 的世界，释放语音识别潜力，开启高效处理的新篇章！

whisper-jax

JAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU.

项目地址：https://gitcode.com/gh_mirrors/wh/whisper-jax

登录后查看全文