Amphion项目中VALL-E模型的微调与训练实践

2025-05-26 12:50:06作者：段琳惟

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

项目地址：https://gitcode.com/GitHub_Trending/am/Amphion

引言

Amphion项目中的VALL-E模型作为先进的语音合成系统，在实际应用中经常需要根据特定需求进行模型微调或重新训练。本文将详细介绍VALL-E模型的微调方法、训练过程中的常见问题及解决方案，以及针对中文语音合成的特殊考量。

模型微调方法

VALL-E模型支持从预训练模型进行微调，这可以显著减少训练时间和计算资源消耗。微调过程需要特别注意以下几点：

参数设置：使用resume_type参数设置为finetune，并指定预训练模型的路径
文件准备：预训练模型权重文件应命名为pytorch_model.bin并放置在指定目录
命令示例：

accelerate launch --main_process_port $port train.py --config $exp_config \
--exp_name $exp_name --log_level debug $1 --resume --resume_type finetune \
--resume_from_ckpt_path "/path/to/checkpoint/folder"

从头训练注意事项

当需要从头训练VALL-E模型时，以下几个关键因素需要特别注意：

数据集选择：推荐使用MLS或LibriTTS数据集，注意音频时长过滤标准
训练配置：
- 6张A800显卡环境下，batch size设为8
- gradient accumulation steps设为4
- 初始loss通常在7.5左右，随着训练会逐渐下降
常见问题：
- 模型只输出单个token：可能是过拟合导致，检查数据集完整性和训练进度
- 可懂度问题：确保G2P处理正确，音素标注一致

中文语音合成的特殊处理

针对中文语音合成任务，VALL-E模型需要做以下调整：

G2P处理：
- 中文音素集需要重新设计
- 可以移除英文特有的B/I/E位置标记
- 使用中文专用G2P工具如PaddleSpeech
模型参数调整：
- 修改配置文件中的phone_vocab_size以匹配中文音素数量
- 调整相关token ID范围
- 建议关闭SpeechTokenizer Codec，使用Encodec
训练技巧：
- 从较小的学习率开始
- 监控验证集loss
- 适当增加训练数据量