SenseVoice模型版本演进：从基础语音识别到全功能语音理解平台

2026-02-05 05:48:17作者：盛欣凯Ernestine

Open-source SenseVoiceSmall model for Mandarin, Cantonese, English, Japanese, and Korean ASR, language ID, emotion recognition, and audio event detection.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

还在为多语言语音处理需求而烦恼？SenseVoice模型从v1.0到v2.0的完整功能升级，让你一次性解决语音识别、情感分析、事件检测等多种任务！

读完本文你将获得：

SenseVoice v1.0到v2.0的核心功能对比
新增ONNX和libtorch导出功能的详细解析
多语言支持从5种扩展到50+的语言演进
推理速度提升15倍的技术突破

版本功能对比一览

功能特性	v1.0 (基础版)	v2.0 (增强版)
多语言支持	5种语言	50+语言
推理速度	基准速度	15倍加速
导出格式	仅PyTorch	ONNX + libtorch
部署方式	单一部署	多平台部署

v1.0：多语言语音识别基础版

SenseVoice v1.0于2024年7月首次发布，专注于高精度多语言语音识别，支持中文、粤语、英语、日语、韩语五种语言。核心功能包括：

基础语音识别(ASR)：采用非自回归端到端框架
语种识别(LID)：自动识别输入音频的语言类型
基础API支持：api.py提供v1版本的RESTful接口

# v1.0基础推理示例
from model import SenseVoiceSmall
model_dir = "iic/SenseVoiceSmall"
m, kwargs = SenseVoiceSmall.from_pretrained(model_dir, device="cuda:0")

v2.0：全功能语音理解平台

v2.0版本在v1.0基础上进行了全面升级，新增多项重磅功能：

1. 导出功能全面增强

新增ONNX和libtorch格式导出，支持跨平台部署：

ONNX导出示例：支持量化推理，提升部署效率
libtorch导出示例：提供C++原生支持

2. 多语言支持大幅扩展

从原有的5种语言扩展到支持50+语言，在Common Voice等公开数据集上表现优异，中文和粤语识别效果显著优于Whisper模型。

3. 富文本识别能力

情感识别(SER)：支持7种情感标签识别
事件检测(AED)：支持音乐、掌声、笑声等8种事件检测
时间戳对齐：基于CTC对齐的时间戳功能

4. 推理效率革命性提升

采用优化后的非自回归架构，10秒音频推理仅需70ms，相比Whisper-Large提速15倍，同时支持动态批处理提升吞吐量。

技术架构演进

v2.0在模型架构上进行了多项优化：

前端处理：frontend.py优化音频特征提取
导出工具：export_utils.py支持多格式导出
对齐算法：ctc_alignment.py提供精确时间戳

部署方案升级

v2.0提供完整的部署生态：

服务部署：FastAPI多并发支持
客户端支持：Python、C++、Java、C#等多语言SDK
量化支持：3位到8位多种量化方案
边缘计算：支持iOS、Android、树莓派等移动设备

微调与定制化

通过finetune.sh脚本和数据示例，用户可以轻松进行模型微调，解决特定场景的长尾问题。

总结与展望

SenseVoice从v1.0到v2.0的演进，体现了从单一语音识别到全功能语音理解平台的跨越。v2.0在保持高精度的同时，大幅提升推理效率，扩展多语言支持，并提供完善的部署生态。

未来SenseVoice将继续优化流式处理能力，增强少样本学习功能，为开发者提供更强大的语音处理工具。

立即体验：克隆仓库 https://gitcode.com/gh_mirrors/se/SenseVoice 开始你的语音处理之旅！

点赞、收藏、关注三连，获取更多AI技术干货！

SenseVoice

Open-source SenseVoiceSmall model for Mandarin, Cantonese, English, Japanese, and Korean ASR, language ID, emotion recognition, and audio event detection.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

518

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

648

287

SenseVoice模型版本演进：从基础语音识别到全功能语音理解平台

版本功能对比一览

v1.0：多语言语音识别基础版