Faster-Whisper-Server项目多GPU配置指南

2025-07-08 16:19:20作者：乔或婵

🚀 提升你的语音转文字体验！Faster Whisper Server是一款兼容OpenAI API的高效服务器，采用faster-whisper作为后端引擎。支持GPU和CPU，通过Docker轻松部署，配置灵活。除了基础的音频文件转写功能，还提供流式转写服务，处理大文件时能实时获取部分结果。同时，正在开发的实时音频转写功能，基于LocalAgreement2算法，支持单声道、16k采样率的原始音频。立即启动，享受更快更稳定的语音服务吧！

项目地址：https://gitcode.com/gh_mirrors/fa/faster-whisper-server

在语音识别领域，Faster-Whisper-Server是一个基于CUDA加速的高性能语音转文字服务。对于拥有多块GPU的用户来说，如何充分利用所有GPU资源来提升处理能力是一个常见需求。本文将详细介绍如何正确配置Faster-Whisper-Server以使用多块GPU协同工作。

多GPU配置原理

Faster-Whisper-Server底层使用CUDA技术进行加速，默认情况下会使用系统中的第一块GPU（索引为0的设备）。要让服务识别并使用多块GPU，需要通过环境变量WHISPER__DEVICE_INDEX进行显式配置。

配置步骤

确认GPU设备：首先确保系统正确识别了所有GPU设备，可以通过nvidia-smi命令查看。
修改Docker配置：在docker-compose.yml文件中，确保已经正确挂载了所有GPU设备。使用count: all和capabilities: [gpu]参数可以让容器访问所有可用GPU。
设置设备索引：关键的一步是设置WHISPER__DEVICE_INDEX环境变量。这个变量应该设置为一个数组，包含所有要使用的GPU设备索引。例如，要使用索引为0和1的两块GPU，应设置为'[0, 1]'。
完整配置示例：

environment:
  - WHISPER__DEVICE_INDEX='[0, 1]'
  - WHISPER__MODEL=deepdml/faster-whisper-large-v3-turbo-ct2
  - WHISPER__INFERENCE_DEVICE=cuda
  - WHISPER__COMPUTE_TYPE=int8