FunASR项目中Paraformer流式语音识别模型的缓存机制问题分析

2025-05-23 20:38:33作者：滑思眉Philip

问题背景

在FunASR项目的流式语音识别模型Paraformer中，当使用AutoModel进行在线推理时，如果同时处理多个音频流，会出现缓存(cache)错乱的问题。这个问题主要影响需要并行处理多个音频流的应用场景，如多路语音实时转写系统。

开发者在并行处理两个音频流时，分别为每个音频流创建了独立的缓存对象(cache和cache1)，期望这两个音频流的识别过程互不干扰。然而在实际运行中发现，两个音频流的识别结果出现了交叉污染，表明缓存机制未能正确隔离不同音频流的处理状态。

问题的根源在于AutoModel的generate方法中使用了deep_update函数来处理传入的缓存参数。deep_update会递归地更新字典内容，导致不同音频流的缓存对象实际上共享了相同的内部状态。具体表现为：

项目维护者已经修复了这个问题，解决方案是将deep_update替换为普通的update操作。这种修改确保了：

这个问题给开发者提供了几个重要的技术启示：

对于使用FunASR进行流式语音识别开发的用户，建议：

这个问题及其解决方案体现了开源社区协作的价值，也展示了流式语音识别系统开发中的一些关键技术考量点。

登录后查看全文