ClearerVoice-Studio 开源项目使用教程

2026-01-30 04:10:40作者：彭桢灵Jeremy

An AI-Powered Speech Processing Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Enhancement, Separation, and Target Speaker Extraction, etc.

项目地址：https://gitcode.com/gh_mirrors/cl/ClearerVoice-Studio

1. 项目介绍

ClearerVoice-Studio 是一个开源的、基于 AI 的语音处理工具包，旨在为研究人员、开发者和终端用户提供语音增强、语音分离、语音超分辨率、目标说话人提取等功能。该工具包包含了先进的预训练模型，以及用于训练和推理的脚本，用户可以从本仓库轻松访问。

2. 项目快速启动

以下步骤将帮助您快速启动 ClearerVoice-Studio 项目：

首先，确保您已经安装了最新版本的 ffmpeg，以支持多种音频格式。

# 安装 ffmpeg
brew install ffmpeg

接着，克隆项目仓库到本地：

# 克隆仓库
git clone https://github.com/modelscope/ClearerVoice-Studio.git
cd ClearerVoice-Studio

安装项目所需的依赖：

# 安装依赖
pip install -r requirements.txt

现在，您可以运行以下命令来启动一个简单的语音增强示例：

# 运行语音增强示例
python clearvoice/enhance.py --input_path path/to/input.wav --output_path path/to/output.wav

请将 path/to/input.wav 替换为您想要增强的音频文件路径，path/to/output.wav 替换为您希望保存增强后音频的路径。

3. 应用案例和最佳实践

语音增强

语音增强用于提高语音质量，减少背景噪声。以下是一个典型的使用案例：

from clearvoice.enhance import Enhancer

# 创建增强器实例
enhancer = Enhancer()

# 加载模型（这里以 FRCRN 为例）
enhancer.load_model('FRCRN')

# 处理音频
enhanced_audio = enhancer.enhance(input_audio, sample_rate=16000)

# 保存结果
enhanced_audio.save('enhanced_output.wav')

语音分离

语音分离可以将混合语音中的各个声音分离出来。以下是一个简单的使用案例：

from clearvoice.separation import Separator

# 创建分离器实例
separator = Separator()

# 加载模型（这里以 MossFormer 为例）
separator.load_model('MossFormer')

# 处理音频
separated_voices = separator.separate(mixed_audio, sample_rate=16000)

# 保存结果
for i, voice in enumerate(separated_voices):
    voice.save(f'speaker_{i}.wav')