首页
/ ASR-LLM-TTS 项目安装与配置指南

ASR-LLM-TTS 项目安装与配置指南

2026-01-30 04:05:42作者:彭桢灵Jeremy

1. 项目基础介绍

ASR-LLM-TTS 是一个基于开源模型的语音交互系统,它整合了自动语音识别(ASR)、大型语言模型(LLM)和语音合成(TTS)技术。该项目使用 SenceVoice 作为 ASR 模型,QWen2.5 作为 LLM 模型,并提供了 CosyVoice、Edge-TTS 和 pyttsx3 三种 TTS 模型。该项目旨在实现一个完整的语音交互流程,从语音识别到语言理解再到语音输出。

主要编程语言:Python

2. 项目使用的关键技术和框架

  • ASR(自动语音识别):使用 SenceVoice 模型,这是一个开源的语音识别模型。
  • LLM(大型语言模型):使用 QWen2.5 模型,用于理解和生成自然语言文本。
  • TTS(语音合成):提供 CosyVoice、Edge-TTS 和 pyttsx3 三种语音合成方法。

3. 项目安装和配置的准备工作

在开始安装之前,请确保您的系统中已经安装了以下软件:

  • Python 3.10
  • CUDA(NVIDIA GPU 驱动)
  • conda(Python 包管理器)

详细安装步骤

步骤 1:创建虚拟环境

打开命令行工具,执行以下命令创建一个名为 chatAudio 的 Python 虚拟环境:

conda create -n chatAudio python=3.10
conda activate chatAudio

步骤 2:安装依赖项

在虚拟环境中,安装 PyTorch 及其相关依赖项:

pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu118

接着,安装项目所需的其他依赖项:

pip install edge-tts==6.1.17 funasr==1.1.12 ffmpeg==1.4 opencv-python==4.10.0.84 transformers==4.45.2 webrtcvad==2.0.10 qwen-vl-utils==0.0.8 pygame==2.6.1 langid==1.1.6 langdetect==1.0.9 accelerate==0.33.0 PyAudio==0.2.14

步骤 3:下载预训练模型

根据项目说明,需要下载 SenceVoiceSmall 模型和 QWen 模型。可以从以下链接手动下载,或根据项目配置自动下载:

  • SenceVoiceSmall 模型下载:链接
  • QWen 模型下载:[链接](https://www.modelscope.cn/models/ 搜索 QWen)

步骤 4:配置项目

根据项目说明,编辑相应的配置文件,设置模型路径和参数。

步骤 5:测试项目

执行以下任一 Python 脚本来测试项目是否安装成功:

python 13_SenceVoice_QWen2.5_edgeTTS_realTime.py

或者,如果不使用 CosyVoice:

python 10_SenceVoice_QWen2.5_cosyVoice.py

安装和配置完成!您现在可以开始使用 ASR-LLM-TTS 项目进行语音交互开发了。

登录后查看全文
热门项目推荐
相关项目推荐