Faster-Whisper 语音转录中如何保留填充词和犹豫词

2025-05-14 11:25:04作者：宣海椒Queenly

在语音识别领域，填充词（如"um"、"ah"、"oh"、"uh"等）和犹豫词（disfluencies）是自然对话中的重要组成部分。这些词汇虽然看似无关紧要，但在某些应用场景中，如心理学研究、对话分析或语音行为研究中，保留这些词汇对分析结果至关重要。

Faster-Whisper 作为 Whisper 模型的高效实现版本，在默认配置下往往会过滤掉这些填充词和犹豫词。这是因为模型在训练时倾向于输出更"干净"的文本转录结果。然而，通过一些技术手段，我们可以调整模型的输出行为，使其保留这些重要的语音特征。

技术原理分析

Whisper 系列模型是基于大规模多语言数据训练的端到端语音识别系统。模型在处理语音时，会综合考虑语音信号的声学特征和语言模型概率，选择最可能的文本输出。填充词和犹豫词在训练数据中出现频率相对较低，且通常被视为"噪声"，因此模型在默认参数下会倾向于忽略它们。

解决方案

1. 使用初始提示（init_prompt）

通过提供包含典型填充词的初始提示，可以引导模型在转录时更倾向于保留这类词汇。这种方法利用了语言模型的上下文学习能力，通过示例告诉模型在当前任务中需要保留这些特征。

init_prompt = "So uhm, yeaah. Okay, ehm, uuuh."
segments, info = model.transcribe(audio_path, init_prompt=init_prompt)

2. 调整解码参数

修改模型的解码参数可以影响其输出行为：

提高温度参数(temperature): 设置为接近1的值可以增加输出的多样性
调整beam_size: 增大beam搜索宽度可以让模型考虑更多可能的候选序列
使用热词(hotwords): 明确指定需要特别关注的词汇

segments, info = model.transcribe(
    audio_path,
    temperature=0.8,
    beam_size=10,
    hotwords=["um", "ah", "uh", "oh"]
)

3. 后处理增强

对于已经生成的转录文本，可以通过以下方法增强填充词的识别：

训练专门的填充词检测模型
使用基于规则的正则表达式匹配
结合声学特征分析定位可能的填充词位置

实践建议

模型选择：较大的模型（如large-v2）通常对细微语音特征的捕捉能力更强
音频预处理：避免过度处理音频，保留原始语音特征
分段策略：适当减小音频分段长度（如5-10秒）可以提高对短暂语音事件的识别
多模型融合：结合多个模型的输出结果，提高填充词识别率

总结

在Faster-Whisper中保留填充词和犹豫词需要综合考虑模型参数调整、提示工程和后期处理等多种技术手段。理解模型的工作原理并根据具体应用场景进行针对性优化，是获得理想转录结果的关键。随着语音识别技术的发展，对自然对话中非语言成分的识别能力也将不断提高，为更精细的话音分析提供支持。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

394

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989