语音识别Web服务终极部署指南：基于Whisper模型的完整教程

2026-02-06 04:00:59作者：舒璇辛Bertina

想要快速搭建一个功能强大的语音识别Web服务吗？🤔 本指南将带你从零开始，使用OpenAI Whisper模型构建一个完整的语音识别API服务。无论你是开发者还是普通用户，都能轻松上手！

🚀 什么是Whisper ASR Webservice？

Whisper ASR Webservice是一个基于OpenAI Whisper模型的通用语音识别工具包，提供完整的Web服务API接口。该项目支持多种Whisper引擎，包括原生OpenAI Whisper、Faster Whisper和WhisperX，能够实现多语言语音识别、语音翻译和语言检测等功能。

✨ 核心功能特色

多引擎支持

OpenAI Whisper: 官方原版模型，功能完整
Faster Whisper: 优化版本，速度更快
WhisperX: 增强版本，支持说话人分离

丰富输出格式

支持文本、JSON、VTT字幕、SRT字幕、TSV等多种输出格式，满足不同应用场景需求。

高级特性

词级时间戳标注 ⏱️
语音活动检测 (VAD) 过滤
说话人分离功能
GPU加速支持
广泛的音频/视频格式兼容

📦 快速部署步骤

CPU版本部署

docker run -d -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest

GPU版本部署

docker run -d --gpus all -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest-gpu

缓存优化配置

为了减少容器启动时间，避免重复下载模型，可以持久化缓存目录：

docker run -d -p 9000:9000 \
  -v $PWD/cache:/root/.cache/ \
  onerahmet/openai-whisper-asr-webservice:latest

🛠️ API接口详解

服务启动后，访问 http://localhost:9000 即可查看Swagger UI文档界面。

主要API端点

语音识别服务 (/asr)

支持转录和翻译两种任务
自动格式转换，兼容多种音视频格式
可配置词级时间戳和语音活动检测

语言检测服务 (/detect-language)

自动检测音频中的语言类型
返回语言代码和置信度评分

请求参数配置

参数名称	可选值	说明
task	transcribe, translate	任务类型
language	en, zh, fr 等	源语言代码
output	text, json, vtt, srt, tsv	输出格式
word_timestamps	true/false	词级时间戳
vad_filter	true/false	语音活动检测

⚙️ 环境变量配置

关键配置选项：

ASR_ENGINE: 引擎选择 (openai_whisper, faster_whisper, whisperx)
ASR_MODEL: 模型选择 (tiny, base, small, medium, large-v3)
ASR_DEVICE: 设备选择 (cuda, cpu)
MODEL_IDLE_TIMEOUT: 模型卸载超时时间

🎯 实际应用示例

使用cURL调用API

curl -X POST -H "content-type: multipart/form-data" \
  -F "audio_file=@/path/to/audio/file" \
  http://localhost:9000/asr?output=json

响应格式说明

JSON响应包含：

text: 完整转录文本
segments: 分段信息，包含时间戳、转录文本等
language: 检测到的语言代码

🔧 开发环境搭建

对于想要进行二次开发的用户：

# 安装poetry
pip3 install poetry

# 安装CPU依赖
poetry install --extras cpu

# 安装CUDA依赖
poetry install --extras cuda

# 启动服务
poetry run whisper-asr-webservice --host 0.0.0.0 --port 9000