SenseVoice 开源项目教程

2026-01-30 04:54:58作者：柯茵沙

1. 项目介绍

SenseVoice 是一个多功能的语音基础模型，具备自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）等多种语音理解能力。该项目基于大量数据训练，支持超过50种语言，识别性能优于Whisper模型。它能够提供丰富的转录、出色的情感识别能力，并支持检测多种常见的人机交互音频事件。

2. 项目快速启动

在开始之前，请确保您的环境中已安装了必要的依赖。以下是快速启动项目的步骤：

# 克隆项目仓库
git clone https://github.com/FunAudioLLM/SenseVoice.git

# 进入项目目录
cd SenseVoice

# 安装依赖
pip install -r requirements.txt

# 运行示例
python demo1.py

3. 应用案例和最佳实践

以下是使用 SenseVoice 的几个应用案例和最佳实践：

案例一：自动语音识别

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

# 模型目录
model_dir = "path/to/SenseVoiceSmall"

# 加载模型
model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0"
)

# 生成识别结果
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",
    use_itn=True,
    batch_size_s=60,
    merge_vad=True
)

# 处理并打印结果
text = rich_transcription_postprocess(res[0]["text"])
print(text)