FunASR项目SenseVoice模型ONNX支持现状分析

2025-05-23 09:39:47作者：盛欣凯Ernestine

FunASR作为阿里巴巴达摩院开源的语音识别工具包，近期在其生态中新增了SenseVoice模型的支持。SenseVoice是一种面向工业数据预训练的语音识别模型，具有较高的识别准确率和良好的泛化能力。

目前FunASR的ONNX运行时支持情况如下：

版本兼容性：在FunASR ONNX 0.3.1版本中，尚未直接提供SenseVoiceSmall类的导入支持，这导致用户在尝试使用该模型时会遇到导入错误。
最新进展：根据项目维护者的反馈，FunASR团队已经为SenseVoice模型添加了ONNX和LibTorch的支持，这些更新位于项目的工业数据预训练示例目录中。
技术实现：SenseVoice模型采用了CTC损失函数进行训练，支持批量处理(batch_size参数可配置)和量化(quantize参数)，这些特性使其适合部署在各种计算环境中。
使用建议：对于需要使用SenseVoice模型的开发者，建议：
- 关注FunASR项目的最新版本更新
- 参考工业数据预训练示例中的实现方式
- 等待官方发布的稳定版ONNX支持
模型特点：SenseVoice模型特别优化了在嘈杂工业环境下的语音识别性能，其小型化版本(SenseVoiceSmall)在保持较高准确率的同时，降低了计算资源需求。

随着FunASR项目的持续发展，预计未来版本将提供更完善的SenseVoice模型支持，包括更简便的API接口和更优化的运行时性能。开发者可以持续关注该项目的更新动态，以获得最佳的语音识别开发体验。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库