faster-whisper项目中Distil模型的使用指南

2025-05-14 06:29:09作者：平淮齐Percy

🚀 提升 GitHub 上的 Whisper 模型体验！Faster-Whisper 使用 CTranslate2 进行重构，提供高达 4 倍速度提升和更低内存占用。在 GPU 上运行更高效，甚至支持 8 位量化。基准测试显示，相同准确度下，Faster-Whisper 相比原版大幅减少资源需求。快速部署，适用于多个模型大小，包括小型到大型模型，CPU 或 GPU 环境。立即加速您的语音转文本任务！

项目地址：https://gitcode.com/gh_mirrors/fas/faster-whisper

faster-whisper是一个基于Whisper模型的优化实现，提供了更快的语音识别速度。近期该项目新增了对Distil模型的实验性支持，但在使用过程中需要注意一些关键细节。

Distil模型简介

Distil模型是Whisper模型的蒸馏版本，通过知识蒸馏技术保留了原模型大部分性能的同时显著减小了模型体积。目前可用的Distil模型包括"distil-medium.en"等变体，它们特别适合英语语音识别任务。

常见问题解析

许多用户在尝试使用Distil模型时会遇到"Invalid model size"错误。这是因为标准的PyPI安装包尚未包含对Distil模型的支持。该功能目前仅存在于项目的master分支中。

解决方案

要使用Distil模型，需要从GitHub源码直接安装：

首先卸载现有的faster-whisper包

使用以下命令从GitHub安装最新版本：

pip install git+https://github.com/SYSTRAN/faster-whisper.git@master

生产环境注意事项

虽然从master分支安装可以立即使用新功能，但在生产环境中建议固定到特定提交版本，以避免因主分支更新带来的潜在不稳定性。可以通过指定commit哈希来实现版本锁定。

使用示例

安装正确版本后，可以像这样使用Distil模型：

from faster_whisper import WhisperModel

model = WhisperModel("distil-medium.en")
segments, info = model.transcribe("audio.wav", 
                                beam_size=5,
                                language="en",
                                max_new_tokens=128)