SpeechRecognition语音识别库完整使用指南

2026-02-06 05:44:25作者：钟日瑜

SpeechRecognition是一个功能强大的Python语音识别库，支持多种语音识别引擎和API，包括在线和离线模式。无论您是想要开发语音助手、音频转录应用，还是其他需要语音转文本功能的项目，这个库都能提供简单易用的解决方案。

项目概述与核心特性

SpeechRecognition库为开发者提供了统一的API接口，可以轻松地在不同语音识别引擎之间切换。该库支持以下主要识别引擎：

CMU Sphinx（离线工作）
Google Speech Recognition
Google Cloud Speech API
Wit.ai
Microsoft Azure Speech
IBM Speech to Text
Snowboy热词检测（离线工作）
Vosk API（离线工作）
OpenAI Whisper（离线工作）
Groq Whisper API

环境配置与安装

基础安装

要开始使用SpeechRecognition，首先需要安装基础库：

pip install SpeechRecognition

安装完成后，可以通过运行以下命令快速测试：

python -m speech_recognition

PyAudio安装（麦克风输入必需）

如果您需要使用麦克风进行实时语音识别，必须安装PyAudio：

pip install SpeechRecognition[audio]

在不同操作系统上的安装方法：

Ubuntu/Debian系统：

sudo apt-get install python-pyaudio python3-pyaudio

Windows系统：

pip install SpeechRecognition[audio]

macOS系统：

brew install portaudio
pip install SpeechRecognition[audio]

其他引擎安装

根据您需要的识别引擎，可以选择安装相应的依赖：

Sphinx识别器：

pip install SpeechRecognition[pocketsphinx]

Vosk识别器：

pip install SpeechRecognition[vosk]

Whisper本地识别：

pip install SpeechRecognition[whisper-local]

Google Cloud Speech API：

pip install SpeechRecognition[google-cloud]

基础使用教程

麦克风语音识别

以下是一个使用麦克风进行语音识别的基础示例：

import speech_recognition as sr

# 创建识别器实例
r = sr.Recognizer()

# 从麦克风获取音频
with sr.Microphone() as source:
    print("请说话...")
    audio = r.listen(source)

# 使用Google Speech Recognition进行识别
try:
    text = r.recognize_google(audio, language='zh-CN')
    print(f"识别结果：{text}")
except sr.UnknownValueError:
    print("无法理解音频内容")
except sr.RequestError as e:
    print(f"请求错误：{e}")

音频文件转录

对于已有的音频文件，可以使用以下代码进行转录：

import speech_recognition as sr
from os import path

# 设置音频文件路径
AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "chinese.flac")

# 从文件加载音频数据
audio = sr.AudioData.from_file(AUDIO_FILE)

r = sr.Recognizer()

# 使用Google Speech Recognition进行识别
try:
    text = r.recognize_google(audio, language='cmn-Hans-CN')
    print(f"文件转录结果：{text}")
except sr.UnknownValueError:
    print("无法理解音频内容")
except sr.RequestError as e:
    print(f"请求错误：{e}")

高级功能配置

环境噪声校准

在嘈杂环境中使用麦克风时，建议先进行环境噪声校准：

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    # 校准环境噪声，持续1秒
    r.adjust_for_ambient_noise(source, duration=1)
    print("噪声校准完成，请说话...")
    audio = r.listen(source)

多语言支持

SpeechRecognition支持多种语言识别，只需在识别时指定相应的语言代码：

中文简体：language='cmn-Hans-CN'
中文繁体：language='cmn-Hant-TW'
英语美国：language='en-US'
英语英国：language='en-GB'

能量阈值调整

如果识别器过于敏感或不够敏感，可以调整能量阈值：

# 设置能量阈值（通常范围50-4000）
r.energy_threshold = 300

# 或者使用动态调整
r.dynamic_energy_threshold = True

常见问题解决方案

PyAudio安装失败

如果在安装PyAudio时遇到问题，可以尝试以下解决方案：

Ubuntu/Debian系统：

sudo apt-get install portaudio19-dev python-all-dev python3-all-dev
pip install SpeechRecognition[audio]

连接超时问题

当使用在线识别服务时，可能会遇到连接超时：

# 增加超时时间
text = r.recognize_google(audio, language='zh-CN', timeout=10)

中文识别配置

确保中文语音识别正确配置：

# 使用Google Speech Recognition进行中文识别
text = r.recognize_google(audio, language='cmn-Hans-CN')

项目结构与资源

SpeechRecognition项目包含以下重要目录：

examples/：包含各种使用示例
- microphone_recognition.py：麦克风识别示例
- audio_transcribe.py：音频文件转录示例
- calibrate_energy_threshold.py：能量阈值校准示例
- background_listening.py：后台监听示例
speech_recognition/：核心库代码
- recognizers/：各种识别器实现
- audio.py：音频处理相关功能
tests/：单元测试文件
reference/：库参考文档