FunASR项目中Paraformer在线模型转ONNX的技术挑战与解决方案

2025-05-24 13:12:58作者：滕妙奇

背景介绍

FunASR是阿里巴巴达摩院推出的开源语音识别框架，其中的Paraformer模型因其高效准确的识别能力而广受关注。在实际应用中，用户经常需要将训练好的模型转换为ONNX格式以便于部署。然而，在尝试将在线版本的Paraformer模型(speech_paraformer-large_asr_nat-zh-cantonese-en-16k-vocab8501-online)转换为ONNX格式时，开发者遇到了一系列技术挑战。

问题分析

在转换过程中，主要出现了以下几个关键问题：

token_list缺失错误：模型转换过程中首先报错提示缺少token_list属性，这表明模型配置不完整。token_list是语音识别模型中至关重要的组件，包含了所有可能的输出token。
input_size配置问题：在补充token_list后，系统又提示缺少input_size参数。input_size决定了模型输入的特征维度，是模型架构的基础配置之一。
前端处理模块不匹配：最后出现的错误表明前端处理模块(frontend)配置存在问题。在线模型通常使用特定的前端处理模块(wavfrontendonline)来处理流式音频输入，这与离线模型的前端处理方式不同。

技术难点

在线Paraformer模型转换为ONNX格式面临的主要技术难点包括：

模型架构差异：在线模型为了支持流式处理，在架构上与离线模型存在显著差异，特别是前端处理部分。
动态输入处理：在线模型需要处理不固定长度的音频输入，而ONNX转换通常需要固定输入维度。
状态维护机制：在线模型通常包含状态维护机制来处理连续语音流，这些机制在转换为静态计算图时可能面临挑战。

解决方案

经过项目维护者的更新，目前已经提供了针对该问题的解决方案：

版本升级：需要使用FunASR v0.8.8及以上版本，该版本对在线模型的支持更加完善。
指定模型版本：在加载模型时需要明确指定revision='v1.0.0'，确保使用兼容的模型实现。
完整参数配置：新版框架已经完善了模型转换所需的完整参数配置，包括token_list、input_size等关键参数。

模型选择建议

对于需要ONNX格式部署的用户，可以考虑以下建议：

离线模型优先：如果应用场景允许，优先考虑使用离线版本的Paraformer模型，如speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch，这些模型的ONNX转换支持更加成熟。
性能权衡：在线模型和离线模型在准确率上可能各有优劣，具体取决于应用场景。在线模型针对流式处理优化，而离线模型可能在全句识别上有优势。
定制化转换：对于必须使用在线模型的场景，可以考虑基于FunASR框架进行定制化开发，提取核心识别模块进行转换。