ChatTTS项目中音色向量转码问题的解决方案

2025-05-03 22:40:29作者：秋泉律Samson

ChatTTS是一个基于深度学习的文本转语音项目，在0.1.1版本中，用户在使用自定义音色向量时可能会遇到"AttributeError: 'Tensor' object has no attribute 'encode'"的错误。这个问题主要源于音色向量格式不兼容，需要进行正确的转码处理。

问题背景

在ChatTTS项目中，用户可以通过sample_random_speaker()方法生成随机音色向量，或者加载预训练的音色向量文件(.pt或.pkl格式)。然而，直接使用这些音色向量进行语音合成时，系统可能会抛出Tensor对象没有encode属性的错误。

根本原因

该错误的本质是音色向量格式与模型期望的输入格式不匹配。ChatTTS模型内部需要特定编码格式的音色向量，而直接从文件加载的Tensor对象未经处理无法直接使用。

解决方案

针对不同版本的ChatTTS，提供了两种转码方法：

最新版本：使用chat.tokenizer._encode_spk_emb方法进行转码
较老版本：使用chat._encode_spk_emb方法进行转码

完整示例代码

import ChatTTS
import torch
import soundfile

# 初始化模型
chat = ChatTTS.Chat()
chat.load(compile=False)

# 加载音色向量文件
loaded_speaker_emb = torch.load('音色向量文件.pt')

# 转码处理（根据版本选择合适的方法）
try:
    # 尝试最新版本的转码方法
    encoded_spk = chat.tokenizer._encode_spk_emb(loaded_speaker_emb)
except AttributeError:
    # 回退到老版本方法
    encoded_spk = chat._encode_spk_emb(loaded_speaker_emb)

# 配置合成参数
params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb=encoded_spk,  # 使用转码后的音色向量
    temperature=0.3,
    top_P=0.7,
    top_K=20
)

# 输入文本
texts = ["这是一个使用自定义音色的语音合成示例"]

# 生成语音
wavs = chat.infer(texts, params_infer_code=params_infer_code)

# 保存音频
soundfile.write("output.wav", wavs[0], 24000)