Parler-TTS 开源项目教程

2026-01-16 10:14:14作者：温艾琴Wonderful

1. 项目介绍

Parler-TTS 是一个轻量级的文本转语音（Text-to-Speech, TTS）模型，它能够以指定说话者的风格（如性别、音高、说话方式等）生成高质量且自然的语音。这个项目是Dan Lyth和Simon King在Stability AI 和爱丁堡大学的工作成果的再现，与其他TTS模型不同，Parler-TTS完全开放源代码。所有的数据集、预处理、训练代码和权重均以许可协议公开，允许社区在此基础上构建自己的强大TTS模型。

2. 项目快速启动

安装依赖

首先，确保你的系统安装了Python和Git。接着，通过pip安装必要的库：

pip install torch transformers datasets

克隆项目仓库

从GitHub克隆Parler-TTS项目到本地:

git clone https://github.com/huggingface/parler-tts.git
cd parlertts

预训练模型的加载与使用

下面是一个使用预训练模型进行文本转语音的基本示例：

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import soundfile as sf

# 加载预处理模型
processor = Wav2Vec2Processor.from_pretrained("parler-tts/your-pretrained-model-name")

# 转换文本到音频
text = "Hello, how are you?"
inputs = processor(text, return_tensors="pt")

# 使用模型生成音频
outputs = model(inputs)
audio = processor.decode_batch(outputs)[0]

# 写入文件
sf.write("output.wav", audio, samplerate=16000)