【亲测免费】 SenseVoice项目安装与配置指南

2026-01-30 05:01:08作者：江焘钦

1. 项目基础介绍

SenseVoice是一个具有多种语音理解能力的语音基础模型，包括自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。该项目旨在提供高精度、多语言的语音识别和音频分析功能。

主要编程语言：Python

2. 项目使用的关键技术和框架

关键技术：

自动语音识别（ASR）
语言识别（LID）
语音情感识别（SER）
音频事件检测（AED）

框架：

FunASR：一个基础的语音识别工具包，提供包括语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多说话人ASR等功能。

3. 项目安装和配置的准备工作与详细步骤

准备工作

在开始安装之前，请确保您的环境中已经安装了以下依赖：

Python 3.6 或更高版本
pip（Python 包管理器）

安装步骤

步骤 1：克隆项目仓库

打开命令行工具，执行以下命令克隆SenseVoice项目：

git clone https://github.com/FunAudioLLM/SenseVoice.git

步骤 2：安装依赖

进入项目目录，安装项目所需的Python依赖：

cd SenseVoice
pip install -r requirements.txt

步骤 3：准备模型

根据项目需求，下载或训练所需的模型。具体模型文件请参考项目文档。

步骤 4：运行示例

以下是一个简单的示例代码，用于演示如何使用SenseVoice模型进行语音识别：

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

# 指定模型路径
model_dir = "path/to/SenseVoiceSmall"

# 初始化模型
model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0"
)

# 运行语音识别
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",
    use_itn=True,
    batch_size_s=60,
    merge_vad=True
)

# 处理输出结果
text = rich_transcription_postprocess(res[0]["text"])
print(text)