FunASR模型导出ONNX格式时的输入参数处理问题分析

2025-05-23 06:26:53作者：曹令琨Iris

问题背景

在FunASR语音识别项目中，模型导出为ONNX格式是一个常见需求。近期在实现这一功能时，开发人员遇到了关于模型输入参数数量的兼容性问题。这个问题主要出现在处理不同类型的ASR模型时，特别是Paraformer和Seaco-Paraformer这两种结构有所差异的模型。

问题现象

在export_utils.py文件中，原始代码将模型输入硬编码为两个参数：

dummy_input = (dummy_input[0].to(device), dummy_input[1].to(device))

这种处理方式会导致以下问题：

对于"speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online"模型，其decoder部分需要20个输入参数，硬编码为2个会导致参数不足
对于"speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"模型，其forward方法只需要2个参数，但修改后的通用处理方式会传入7个参数，导致类型错误

解决方案分析

开发人员尝试了两种改进方案：

通用元组转换方案：

dummy_input = tuple(t.to(device) for t in dummy_input)

这种方法解决了第一个问题，能够处理需要多个输入参数的模型，但对于只需要少量参数的模型又会产生新的问题。

完全移除转换逻辑：直接删除设备转换代码，这种方法虽然能让Seaco-Paraformer模型正常工作，但可能在其他场景下导致设备不匹配的问题。

技术深入

这个问题的本质在于不同ASR模型架构对输入参数的需求差异：

标准Paraformer在线模型：需要大量中间状态作为decoder输入
Seaco-Paraformer模型：采用简化设计，只需要基础音频特征输入
其他变体模型：可能有各自特殊的输入需求

最佳实践建议

针对这类模型导出问题，建议采用以下策略：

模型感知的输入处理：根据模型类型动态确定输入参数数量
参数验证机制：在导出前检查模型forward签名与输入参数的匹配性
设备一致性检查：确保所有输入张量位于同一计算设备上
异常处理：为不同类型的参数不匹配情况提供有意义的错误提示

总结

FunASR项目中不同ASR模型的结构差异导致了ONNX导出时的输入处理复杂性。通过分析特定错误案例，我们可以更好地理解模型架构差异对工具链的影响。未来在设计和实现模型导出工具时，应当充分考虑模型变体的多样性，建立更加灵活和健壮的参数处理机制。

FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models.

项目地址：https://gitcode.com/gh_mirrors/fu/FunASR

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.22 K

671