FasterWhisper在多GPU系统中指定GPU设备的技术指南

2025-05-14 01:39:05作者：魏献源Searcher

🚀 提升 GitHub 上的 Whisper 模型体验！Faster-Whisper 使用 CTranslate2 进行重构，提供高达 4 倍速度提升和更低内存占用。在 GPU 上运行更高效，甚至支持 8 位量化。基准测试显示，相同准确度下，Faster-Whisper 相比原版大幅减少资源需求。快速部署，适用于多个模型大小，包括小型到大型模型，CPU 或 GPU 环境。立即加速您的语音转文本任务！

项目地址：https://gitcode.com/gh_mirrors/fas/faster-whisper

问题背景

在使用FasterWhisper进行语音识别时，许多开发者会遇到一个常见的技术挑战：如何在配备多块GPU的服务器环境中，精确控制模型运行在哪一块GPU上。特别是在GPU未桥接的硬件配置下，默认情况下模型可能会自动选择第一块GPU（GPU0），而无法灵活指定使用其他GPU设备。

技术原理

FasterWhisper作为Whisper模型的高效实现版本，底层依赖于CUDA进行GPU加速计算。在多GPU环境中，CUDA会为每块GPU分配一个从0开始的索引号。默认情况下，深度学习框架通常会选择索引为0的GPU作为计算设备。

解决方案

通过深入研究FasterWhisper的API设计，开发者可以通过device_index参数在模型初始化阶段显式指定目标GPU设备。这一参数接受整数值，对应系统中GPU的物理索引号。

具体实现

以下是使用FasterWhisper时指定GPU设备的典型代码示例：

from faster_whisper import WhisperModel

# 初始化模型并指定使用第二块GPU（索引为1）
model = WhisperModel("large-v2", device="cuda", device_index=1)

# 后续的转录操作将自动在指定的GPU上执行
segments, info = model.transcribe("audio.mp3")