【亲测免费】 Python语音识别库Speech Recognition完全安装配置手册

2026-01-20 01:03:27作者：邬祺芯Juliet

项目基础介绍与编程语言

项目名称: Speech Recognition

编程语言: Python

Speech Recognition是Python社区中的一个明星开源项目，致力于提供简单易用的接口以支持多种语音识别引擎和API，无论是在线还是离线模式都能灵活应对。此项目由Anthony Zhang维护，并在GitHub上托管，地址为https://github.com/Uberi/speech_recognition.git。它兼容Python 3.8及以上版本，使得开发者能够轻松将语音转化为文本，适用于多种应用场景。

关键技术和框架

核心库: 本项目基于Python标准库之上，主要依赖于外部库如PyAudio来捕获音频，以及一些特定的语音识别API库。
支持的引擎与API：包括但不限于CMU Sphinx（离线）、Google Speech Recognition、Google Cloud Speech API、Wit.ai、Microsoft Azure Speech等，覆盖从开源到商业的广泛选项。
跨平台性: 支持Windows、Linux、macOS等操作系统。

安装与配置详细步骤

准备工作

确保你的开发环境已准备好Python 3.8或更高版本。可以通过运行python --version或python3 --version来检查Python的版本。

步骤一：安装Speech Recognition库

打开终端或命令提示符，输入以下命令安装主库：

pip install SpeechRecognition

步骤二：安装依赖库

Speech Recognition的核心功能虽然强大，但其部分特性要求额外的库支持：

PyAudio（仅当你需要麦克风输入时）：
```
pip install pyaudio
```
注意：对于某些系统，尤其是Linux，可能需要额外的步骤来安装PortAudio，详情参考PyAudio官方文档或使用系统包管理器（如Ubuntu上的sudo apt-get install libportaudio2）。
Vosk模型（如果要使用Vosk API）：先安装Vosk库：
```
pip install vosk
```
下载模型并放置在适当的路径下。
其他依赖，如针对特定APIs（Google Cloud Speech API等），需按照各API的官方说明获取API密钥或安装相关客户端库。

步骤三：环境配置验证

创建一个简单的测试脚本来验证安装是否成功：

import speech_recognition as sr

def recognize_audio():
    r = sr.Recognizer()
    with sr.Microphone() as source:
        print("请说话...")
        audio = r.listen(source)
    try:
        text = r.recognize_google(audio, language='zh-CN')
        print("你说的是:", text)
    except sr.UnknownValueError:
        print("无法理解音频")
    except sr.RequestError as e:
        print("请求错误; {0}".format(e))

if __name__ == "__main__":
    recognize_audio()