FunAudioLLM/SenseVoice项目中的音频事件检测能力优化实践

2025-06-07 10:53:03作者：劳婵绚Shirley

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

背景介绍

FunAudioLLM/SenseVoice是一个开源的音频处理项目，其核心功能包括自动语音识别(ASR)和音频事件检测(AED)。在初始版本中，模型的AED能力表现较弱，主要原因是训练数据不足且未针对该任务进行专门优化。

问题分析

通过项目讨论发现，原始模型在训练时主要使用了ASR数据，仅包含少量负样本噪声数据，缺乏针对音频事件检测任务的专门训练。这导致模型在识别特定音频事件(如动物叫声、警报声等)时表现不佳。

解决方案

1. 利用预留Token扩展事件类型

SenseVoice模型在设计时已预留了未使用的Token(命名为SPECIAL_TOKEN_X)，这为事件类型扩展提供了便利。通过调用tokenizer接口可以获取这些预留Token：

[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size())]

建议使用SPECIAL_TOKEN_15之后的Token进行新事件类型的扩展，这样可以避免与现有Token产生冲突。

2. 数据准备与格式规范

使用ESC-50等公开音频事件数据集进行微调训练时，需要遵循特定数据格式：

语种字段设为"<|nospeech|>"
情感字段设为"<|EMO_UNKNOWN|>"
事件字段设为目标事件对应的Token
文本内容留空
目标长度(target_len)设为1

示例数据格式：

{
  "key": "3-187549-A-6",
  "text_language": "<|nospeech|>",
  "emo_target": "<|EMO_UNKNOWN|>",
  "event_target": "<|Event_UNK|>",
  "with_or_wo_itn": "<|woitn|>",
  "target": "",
  "source": "path/to/audio.wav",
  "target_len": 1,
  "source_len": 500
}

3. 训练注意事项

在实践过程中需要注意：

Token名称必须准确无误，大小写敏感
确保音频文件路径正确
合理设置source_len参数，反映音频实际长度
新增事件类型时建议从预留Token的较高编号开始使用

实践效果

通过在ESC-50数据集上扩展7个新的事件类型并进行微调训练，模型的音频事件检测能力得到了显著提升。验证集上的准确率明显提高，证明这种扩展方法的有效性。

技术启示

这一实践表明：

预训练模型预留扩展空间的重要性
合理利用公开数据集可以快速提升特定任务表现
模型微调时数据格式的规范性直接影响训练效果
系统设计时考虑可扩展性能够降低后续优化成本

对于希望增强音频事件检测能力的开发者，可以参考这一方法，结合自身业务需求，选择合适的数据集进行模型优化。

Multilingual speech understanding: ASR + emotion recognition + audio event detection. 50+ languages, 15x faster than Whisper, non-autoregressive.

项目地址：https://gitcode.com/gh_mirrors/se/SenseVoice

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。