FunAudioLLM/SenseVoice项目中的模型加载问题分析与解决方案

2025-06-07 11:25:07作者：殷蕙予

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

问题背景

在使用FunAudioLLM/SenseVoice项目进行语音处理时，用户遇到了模型加载失败的问题。具体表现为尝试加载SenseVoiceSmall模型时，系统提示"iic/SenseVoiceSmall is not registered"错误，同时伴随有transformers库中PreTrainedModel导入失败的问题。

错误分析

从错误日志可以看出，问题主要涉及两个方面：

模型注册问题：系统无法识别"iic/SenseVoiceSmall"这个模型标识符，表明该模型可能没有被正确注册到FunASR的模型系统中。
依赖库兼容性问题：transformers库中的PreTrainedModel类导入失败，这通常是由于transformers库版本不兼容或者安装不完整导致的。

解决方案

项目维护者提供了明确的解决方案：

添加关键参数：在AutoModel初始化时，需要添加两个关键参数：
```
trust_remote_code=True,
remote_code="./model.py",
```
这两个参数允许从远程加载模型代码并信任其执行。
版本升级：建议用户将funasr库升级到最新版本(1.1.2)，使用命令：
```
pip install -U funasr
```

扩展讨论：说话人分类功能

在后续讨论中，用户询问了关于说话人分类功能的实现。目前FunASR框架中，Paraformer-zh模型支持说话人分类功能，可以通过设置spk_model参数来实现：

model = AutoModel(model="paraformer-zh", 
                 vad_model="fsmn-vad", 
                 punc_model="ct-punc", 
                 spk_model="cam++")

需要注意的是，当前说话人分类功能主要支持中文语音。该功能可以识别音频中的不同说话人，为语音转写结果添加说话人标签，在多说话人场景下特别有用。

最佳实践建议

环境配置：确保使用兼容的PyTorch版本(如2.3.1+cu118)和transformers库。
参数调整：根据实际需求灵活配置模型参数，如是否需要语音活动检测(VAD)、标点恢复或说话人分类功能。
热词支持：可以利用hotword参数提供领域专有词汇，提高识别准确率。
批量处理：通过batch_size_s参数优化长音频的处理效率。

总结

FunAudioLLM/SenseVoice项目提供了强大的语音处理能力，但在使用过程中需要注意模型加载的特殊要求和功能限制。通过正确配置参数和保持环境更新，可以充分发挥其多功能的语音识别和处理能力。对于中文场景下的说话人分类等高级功能，Paraformer-zh模型提供了完整的解决方案。

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。