Faster-Whisper-Server 项目中的单词级时间戳功能解析

2025-07-09 04:43:54作者：宣海椒Queenly

🚀 提升你的语音转文字体验！Faster Whisper Server是一款兼容OpenAI API的高效服务器，采用faster-whisper作为后端引擎。支持GPU和CPU，通过Docker轻松部署，配置灵活。除了基础的音频文件转写功能，还提供流式转写服务，处理大文件时能实时获取部分结果。同时，正在开发的实时音频转写功能，基于LocalAgreement2算法，支持单声道、16k采样率的原始音频。立即启动，享受更快更稳定的语音服务吧！

项目地址：https://gitcode.com/gh_mirrors/fa/faster-whisper-server

在语音识别领域，时间戳功能对于需要精确对齐文本和音频的应用场景至关重要。Faster-Whisper-Server 作为基于 Faster-Whisper 的服务器实现，提供了强大的时间戳功能支持，特别是单词级别的时间戳标记。

核心功能特性

Faster-Whisper-Server 实现了两种粒度的时间戳功能：

段落级时间戳(segment)
- 标记整个语音段落的起止时间
- 适用于一般的语音转文字场景
单词级时间戳(word)
- 精确到每个单词的起止时间
- 对于需要高精度对齐的应用（如字幕生成、语音分析）特别有用

技术实现细节

项目通过 timestamp_granularities 参数控制时间戳的粒度级别。值得注意的是，这个参数的传递方式遵循了特定的API规范：

必须使用数组形式传递
参数名需要包含方括号 []
有效值为 word 或 segment

实际应用示例

以下是正确的API调用方式示例：

# 使用Python requests库调用
data = {
    'model': 'Systran/faster-whisper-medium.en',
    'timestamp_granularities[]': 'word',
    'response_format': 'verbose_json'
}

对于使用OpenAI官方客户端的开发者，需要注意参数传递的格式差异：

# 使用OpenAI Python客户端
transcript = client.audio.transcriptions.create(
    model="medium",
    file=audio_file,
    timestamp_granularities=['word'],  # 注意这里是列表形式
    response_format='verbose_json'
)