Distil-Whisper训练数据准备中的文本列选择问题分析

2025-06-17 22:41:46作者：齐添朝

在语音识别模型的训练过程中，数据准备是一个关键环节。本文针对Distil-Whisper项目在准备训练数据时遇到的文本列选择问题进行分析，特别关注VoxPopuli数据集的处理方法。

数据集文本列差异分析

Distil-Whisper项目使用了三个主要的开源语音数据集进行训练，这些数据集在文本列的命名和内容上存在显著差异：

VoxPopuli数据集存在一个特殊问题：其"raw_text"列中约3%的样本(5463/182482)包含空字符串。这些样本虽然"raw_text"为空，但对应的"normalized_text"列却包含有效的标准化文本内容。

这种数据质量问题会导致在伪标注过程中出现"ValueError: one or more references are empty strings"的错误，使得整个处理流程在运行数小时后失败。

针对VoxPopuli数据集的问题，推荐采用以下处理方案：

使用标准化文本列：由于伪标注过程中的WER计算是基于标准化文本的，直接使用"normalized_text"列是最安全的选择。这也是Distil-Whisper官方数据集采用的方法。
数据过滤处理：如果确实需要使用原始文本列("raw_text")，必须在预处理阶段使用过滤方法移除空文本样本。可以使用Hugging Face数据集库的filter方法实现：

raw_datasets = raw_datasets.filter(
    lambda x: len(x["raw_text"]) > 0,
    num_proc=num_workers,
    desc="Filtering out empty transcriptions",
)

在实际应用中，建议开发者：

通过正确处理文本列的选择问题，可以确保语音识别模型训练数据的质量，提高模型训练的成功率和最终性能。

登录后查看全文