FunASR语音识别服务在大规模文件处理时的稳定性优化

2025-05-24 10:03:59作者：庞队千Virginia

问题背景

在使用FunASR开源语音识别系统时，用户反馈在Docker环境下运行funasr-wss-server服务程序时，当处理约8000个录音文件后，系统会出现假死现象。具体表现为内存占满后程序仍在运行但不再继续识别任务，同时也不退出。

用户使用的是FunASR官方提供的Docker镜像funasr-runtime-sdk-cpu-0.4.1版本，基础配置包括：

语音端点检测(VAD)模型：damo/speech_fsmn_vad_zh-cn-16k-common-onnx
语音识别(ASR)模型：damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
标点恢复模型：damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx
语言模型：damo/speech_ngram_lm_zh-cn-ai-wesp-fst
文本正则化模型：thuduj12/fst_itn_zh

根据技术描述，该问题可能由以下几个因素导致：

针对这一问题，FunASR官方协作者建议升级到0.4.2版本进行测试。版本升级通常包含以下改进：

对于面临类似问题的用户，建议采取以下步骤：

FunASR作为开源的语音识别系统，在处理大规模音频文件时展现了强大的能力，但在特定版本下可能存在稳定性问题。通过版本升级和合理的资源管理，可以有效解决处理大量文件时的假死问题。建议用户保持系统更新，以获得最佳的性能和稳定性体验。

登录后查看全文