FunASR流式语音识别客户端在无音频设备环境下的运行问题解析

2025-05-24 17:13:04作者：齐冠琰

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

问题背景

在使用FunASR项目进行流式语音识别时，部分用户在Linux服务器环境下运行funasr_wss_client.py客户端脚本时遇到了音频设备相关的错误。该问题主要出现在没有物理声卡或音频输入输出设备的服务器环境中，错误提示为"OSError: No Default Output Device Available"。

错误现象分析

当用户在无音频设备的Linux服务器上运行流式语音识别客户端时，系统会抛出大量ALSA相关的错误信息，主要包括：

无法找到默认音频设备
PulseAudio连接被拒绝
各种PCM设备初始化失败

这些错误源于Python音频库PyAudio尝试初始化系统音频设备时的失败。在Linux系统中，音频子系统(ALSA)会尝试加载各种音频设备驱动，当物理设备不存在时就会产生这些错误信息。

技术原理

FunASR的流式语音识别客户端设计初衷是直接从麦克风采集音频流进行实时识别。在实现上，它使用了PyAudio库来访问系统音频设备。PyAudio底层依赖于操作系统的音频子系统：

在Linux上是ALSA(Advanced Linux Sound Architecture)
在Windows上是DirectSound/WASAPI
在macOS上是CoreAudio

当在无音频设备的服务器环境运行时，这些音频子系统无法找到可用的硬件设备，导致初始化失败。

解决方案

对于这个问题的处理，有以下几种可行的方案：

使用正确的运行环境：流式语音识别客户端设计用于有音频输入设备的终端环境(如个人电脑)，而非无音频设备的服务器环境。正确的做法是在有麦克风的本地机器上运行客户端，连接到服务器端的识别服务。
虚拟音频设备方案：如果必须在服务器环境运行，可以配置虚拟音频设备：
- 安装pulseaudio和alsa-utils
- 创建虚拟声卡设备
- 配置ALSA使用虚拟设备作为默认设备
修改客户端代码：对于高级用户，可以修改客户端代码，绕过音频设备检测，直接从文件或其他输入源获取音频数据。