情感语音语料采集与标注全指南：从零构建IndexTTS2训练数据

2026-02-05 05:48:17作者：冯梦姬Eddie

你是否在训练情感语音模型时遇到语料质量参差不齐、情感标注不一致的问题？本文将系统讲解IndexTTS2情感语音语料的采集标准、标注规范和质量控制方法，帮助你构建高质量训练数据集，显著提升模型情感表达能力。读完本文你将掌握：情感类别体系设计、多场景录音方案、三级标注流程以及自动化质检工具的使用。

项目背景与情感语音重要性

IndexTTS2作为工业级可控零样本文本转语音系统（Text-To-Speech System，TTS），其核心优势在于实现了情感表达与说话人身份的解耦控制。模型架构如图所示，通过情感提示（emo_audio_prompt）与音色提示（spk_audio_prompt）的分离，可独立调整语音的情感色彩和说话人特征。

高质量的情感语音语料是实现这一功能的基础。项目示例文件夹中提供了12种不同风格的语音样本，如高兴风格、悲伤风格和愤怒风格，展示了情感语音的多样性要求。

情感类别体系设计

IndexTTS2采用8维情感向量模型，定义了基础情感空间：[高兴, 愤怒, 悲伤, 害怕, 厌恶, 忧郁, 惊讶, 平静]。情感类别体系设计参考了checkpoints/pinyin.vocab中的韵律标注规范，确保情感表达与语音韵律的一致性。

核心情感类型与特征

情感类型	声学特征	典型应用场景	参考样本
高兴	高频、快语速、强语调变化	产品宣传、娱乐内容	voice_10.wav
悲伤	低频、慢语速、弱能量	悲剧旁白、情感故事	emo_sad.wav
愤怒	高能量、短停顿、强爆破音	警告提示、情绪表达	emo_hate.wav
平静	平稳语调、中等语速	新闻播报、教育培训	voice_01.wav

情感强度分为三级：轻度（0.3-0.5）、中度（0.5-0.7）和重度（0.7-1.0），通过推理接口中的emo_alpha参数控制。

数据采集规范

录音环境要求

声学环境：消声室或安静房间（背景噪声≤35dB）
设备参数：44.1kHz采样率、16位深度、单声道
麦克风：心形指向性电容麦（如Blue Yeti），距离嘴部20-30cm

文本选择标准

文本库应满足：

覆盖日常生活场景（共20类，见cases.jsonl）
包含情感触发词（如"太棒了"、"遗憾的是"）
句子长度5-15字，包含不同韵律特征（平、升、降、曲折调）

说话人招募

年龄分布：18-60岁，每10岁一个区间
性别比例：男女1:1，包含跨性别者
语音特质：清晰可辨，无明显方言口音

情感标注流程

IndexTTS2采用三级标注流程，结合人工标注与机器辅助验证，确保标注准确性。

标注工具与界面

推荐使用项目内置标注工具：

from indextts.utils.webui_utils import launch_annotation_tool
launch_annotation_tool(dataset_path="data/raw", output_path="data/annotated")

工具界面支持：

波形可视化与情感强度曲线绘制
8维情感向量滑块调节
标注结果实时保存为JSON格式

标注规范细则

情感标签：为每个语音片段标注主情感（1个）和副情感（0-2个）
强度评分：对每种情感给出0-1的强度评分，步长0.05
韵律标记：标记情感转折点（如voice_07.wav中"哎"字的悲伤转折）
文本对齐：精确到词级的语音-文本对齐，参考text_utils.py中的处理逻辑

标注质量控制

标注者间一致性检验（Kappa系数≥0.85）
随机抽取10%样本进行二次标注复核
使用自动情感检测模型进行辅助验证

数据预处理与增强

预处理流程

音频格式转换：统一为WAV格式（44.1kHz，16bit）
噪声去除：使用BigVGAN中的降噪模块
语音分割：按句子边界分割，长度控制在3-10秒
特征提取：提取梅尔频谱、基频（F0）和能量特征

数据增强策略

为扩充训练数据多样性，采用以下增强方法：

语速调整：±20%范围内变速，保持音调不变
音高偏移：±4个半音，模拟不同年龄说话人
背景混合：添加轻微环境噪声（≤25dB）
情感迁移：使用情感转换模型生成跨情感样本

数据集组织与存储

目录结构

推荐采用如下层次结构组织数据：

data/
├── raw/              # 原始录音
│   ├── speaker_01/
│   └── speaker_02/
├── annotated/        # 标注后数据
│   ├── train/
│   ├── val/
│   └── test/
└── processed/        # 预处理后数据
    ├── mel/          # 梅尔频谱特征
    └── wav/          # 增强后音频

元数据格式

每个样本的元数据存储为JSON格式：

{
  "id": "S01_E03_005",
  "speaker_id": "S01",
  "emotion": {"primary": "happy", "secondary": ["surprise"], "intensity": 0.8},
  "text": "这个结果太令人惊喜了！",
  "audio_path": "processed/wav/S01_E03_005.wav",
  "duration": 3.2,
  "sampling_rate": 44100,
  "quality_score": 4.8
}

质量评估指标

客观评估指标

信噪比（SNR）：≥30dB
情感识别准确率：≥85%（使用评估脚本）
文本匹配度：词错误率（WER）≤5%

主观评估方法

平均意见分（MOS）：1-5分，评估语音自然度
情感强度评分：1-7分，评估情感表达强度
情感混淆矩阵：统计不同情感类型的识别混淆情况

实际案例与最佳实践

情感语料构建案例

以游戏配音情感语料为例，采集流程如下：

设计20个游戏场景剧本（见cases.jsonl）
招募5名专业配音演员，录制每种情感30句
使用标注工具进行8维情感标注
应用数据增强生成10倍扩充数据
通过质量检测确保数据集合格

常见问题解决方案

问题	解决方案	相关模块
情感强度标注不一致	增加标注者培训，提供标准参照样本	docs/README_zh.md
录音背景噪声过大	使用谱减法降噪，过滤低频噪声	BigVGAN/utils.py
情感样本分布不均	采用过采样技术，增加稀缺情感样本	s2mel/modules/commons.py