FunASR在线语音识别服务内存管理优化实践

2025-05-23 05:14:23作者：毕习沙Eudora

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

背景介绍

FunASR作为一款优秀的开源语音识别框架，其在线推理服务在Docker容器化部署时可能会遇到内存管理方面的问题。本文将深入分析FunASR在线语音识别服务在内存使用方面的特点，并提供优化实践经验。

问题现象分析

在使用FunASR的Docker镜像funasr-runtime-sdk-online-cpu-0.1.11部署在线语音识别服务时，用户观察到以下内存使用特征：

每次建立WebSocket连接时，内存会增加约100MB
连接断开后，内存不会立即下降
推理过程中内存保持稳定
持续运行下，随着连接建立/断开次数的增加，内存占用会逐步上升

这种现象在常规模型(speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx)和热词模型(speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx)上都会出现。

技术原理探究

经过深入分析，这种现象主要由以下几个技术因素造成：

计算线程资源预分配：FunASR服务在初始化时会根据配置的计算线程数预先分配资源，以提高后续处理效率。
ONNX Runtime内存缓存：ONNX推理引擎会保留部分内存作为缓存，避免频繁的内存分配/释放操作，提升推理性能。
内存池管理机制：现代内存管理系统通常会保留已释放的内存，将其保留在进程的内部池中，以便快速重新分配使用。
热词模型特性：当使用热词模型并加载大量热词时，系统需要为热词处理预留额外的内存空间。

优化实践方案

针对上述内存使用特点，我们通过以下优化实践取得了良好效果：

线程配置优化

通过调整服务启动脚本中的线程参数，可以平衡内存使用和识别性能：

最小化配置：
- decoder_thread_num=1
- io_thread_num=1
- model_thread_num=1
- 内存占用从1.5GB增长到1.7GB后保持稳定
中等规模配置：
- decoder_thread_num=32
- io_thread_num=2
- model_thread_num=1
- 内存占用从1.5GB增长到2.1GB后保持稳定
高性能配置：
- decoder_thread_num=32
- io_thread_num=8
- model_thread_num=4
- 内存占用从1.5GB增长到2.5GB后保持稳定