F5-TTS项目：如何准备自定义数据集进行语音合成模型微调

2025-05-21 14:38:32作者：邵娇湘

数据集准备概述

在F5-TTS语音合成项目中，准备高质量的数据集是模型微调成功的关键步骤。本文将详细介绍如何构建适合F5-TTS模型的自定义数据集，包括数据格式要求、预处理流程以及注意事项。

数据集目录结构

推荐采用以下标准目录结构组织您的语音数据：

自定义数据集目录/
│
├── wavs/              # 存放所有音频文件
│   ├── 音频1.wav
│   ├── 音频2.wav
│   └── ...
│
└── metadata.csv       # 文本-音频对应关系文件

元数据文件格式

metadata.csv文件应采用竖线"|"作为分隔符，格式如下：

音频文件名1|对应文本1
音频文件名2|对应文本2
音频文件名3|对应文本3

注意：文件扩展名(.wav)不应包含在元数据文件中。

数据预处理脚本

以下Python脚本展示了如何将原始数据集转换为F5-TTS可用的格式：

import pandas as pd
import torchaudio
import os, json
from datasets import Dataset
from model.utils import convert_char_to_pinyin
from tqdm import tqdm
import shutil

# 配置参数
finetune = True          # 微调模式设为True，从头训练设为False
name_project = "自定义项目名称"  # 项目名称，用于保存数据
path_dataset = "数据集根目录路径"  # 数据集完整路径

# 路径设置
path_wav = os.path.join(path_dataset, "wavs")
file_metadata = os.path.join(path_dataset, "metadata.csv")

# 读取元数据
df = pd.read_csv(file_metadata, sep='|', header=None, 
                names=['filename', 'text', 'normalized'])

# 音频时长计算函数
def get_audio_duration(audio_path):
    audio, sample_rate = torchaudio.load(audio_path)
    return audio.shape[1] / sample_rate

# 文本清洗函数（可根据需要自定义）
def clear_text(text):
    return text.lower().strip()

# 处理数据
df['audio_path'] = df['filename'].apply(lambda x: os.path.join(path_wav, x + ".wav"))
df['duration'] = df['audio_path'].apply(get_audio_duration)
df['text_clear'] = df['text'].apply(clear_text)

# 转换为拼音（中文处理）
tokenizer = "pinyin"
polyphone = True
if tokenizer == "pinyin":
   text_list = [convert_char_to_pinyin([text], polyphone=polyphone)[0] 
               for text in df['text_clear']]

# 保存处理后的数据
path_raw = os.path.join("data", f"{name_project}_pinyin", "raw")
os.makedirs(path_raw, exist_ok=True)

dataset = Dataset.from_dict({
    "audio_path": df['audio_path'].tolist(),
    "text": text_list,
    "duration": df['duration'].tolist()
})
dataset.save_to_disk(path_raw, max_shard_size="2GB")

# 保存时长信息
with open(os.path.join("data", f"{name_project}_pinyin", "duration.json"), 'w') as f:
    json.dump({"duration": df['duration'].tolist()}, f)

# 词汇表处理
if not finetune:
    vocab_set = set().union(*[set(text) for text in text_list])
    with open(os.path.join("data", f"{name_project}_pinyin", "vocab.txt"), "w") as f:
        f.writelines(f"{v}\n" for v in sorted(vocab_set))
else:
    # 微调模式下复制基础词汇表
    shutil.copy2("data/Emilia_ZH_EN_pinyin/vocab.txt",
               os.path.join("data", f"{name_project}_pinyin", "vocab.txt"))

关键注意事项

音频格式要求：
- 推荐使用16kHz或更高采样率的单声道WAV格式
- 音频长度理论上没有严格限制，但应考虑GPU显存容量
文本处理建议：
- 中文文本会自动转换为拼音
- 建议进行统一的文本规范化处理（如全角转半角、标点统一等）
数据量建议：
- 微调模式下至少需要1小时以上的语音数据
- 从头训练建议10小时以上的高质量数据
质量检查：
- 确保音频文件没有静音段过长或噪声问题
- 检查文本与音频内容是否严格对应

通过以上步骤准备的数据集，即可用于F5-TTS模型的微调或训练。建议在正式训练前，先使用少量数据进行测试，确保数据格式正确无误。

登录后查看全文

F5-TTS项目：如何准备自定义数据集进行语音合成模型微调

数据集准备概述

数据集目录结构

元数据文件格式

数据预处理脚本

关键注意事项

热门内容推荐

最新内容推荐

项目优选

F5-TTS项目：如何准备自定义数据集进行语音合成模型微调

数据集准备概述

数据集目录结构

元数据文件格式

数据预处理脚本

关键注意事项

相关内容推荐

热门内容推荐

最新内容推荐

项目优选