Amphion项目自定义SVCDataset数据集格式详解

2025-05-26 22:53:20作者：卓炯娓

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

项目地址：https://gitcode.com/GitHub_Trending/am/Amphion

在语音合成和歌声转换领域，数据集的正确配置是模型训练成功的关键前提。本文将详细介绍如何在Amphion项目中正确配置自定义SVCDataset数据集，帮助开发者避免常见错误。

数据集目录结构规范

Amphion项目对自定义SVCDataset有着严格的目录结构要求，正确的结构应如下所示：

[自定义数据集根目录]
┣── 歌手1
┃   ┣── 歌曲1
┃   ┃   ┣── 音频1.wav
┃   ┃   ┣── 音频2.wav
┃   ┃   ┣── ...
┃   ┣── 歌曲2
┃   ┣── ...
┣── 歌手2
┣── ...

这种层级结构的设计考虑了以下几个技术要点：

歌手级别的分类有助于模型学习不同声纹特征
歌曲级别的子目录可以保持同一歌曲中音频的连贯性
清晰的目录结构便于预处理脚本自动解析

配置文件关键参数

在exp_config.json中，必须正确配置以下三个关键部分：

dataset数组：声明使用的所有数据集名称
dataset_path对象：指定每个数据集的路径
use_custom_dataset数组：明确哪些是自定义数据集

典型配置示例：

{
    "dataset": ["ExistingDataset", "MyCustomDataset"],
    "dataset_path": {
        "ExistingDataset": "/path/to/existing",
        "MyCustomDataset": "/path/to/custom"
    },
    "use_custom_dataset": ["MyCustomDataset"]
}

预处理流程解析

当执行run.sh --stage 1预处理阶段时，Amphion会执行以下关键步骤：

扫描指定目录下的音频文件
自动计算每个音频的时长(Duration)等元信息
生成包含完整元数据的train.json和test.json
将处理后的数据保存在processed_dir指定目录

特别注意：预处理生成的json文件包含Duration等关键字段，不应手动创建这些文件。

常见问题解决方案

根据实际案例，开发者常遇到以下两类问题：

预处理阶段报错缺少Duration字段
- 原因：手动创建了metadata文件而非让系统自动生成
- 解决：确保只提供原始音频，由预处理脚本自动生成元数据
路径配置冲突
- 原因：processed_dir与原始数据集路径相同
- 建议：将processed_dir设置为独立目录(如默认的"data"目录)