GPT-SoVITS项目中批量清理未识别音频的高效方法

2025-05-01 12:05:12作者：江焘钦

在语音处理项目中，处理大量音频文件时经常会遇到未被自动识别系统正确标记的音频片段。这些片段可能是无意义的背景噪音、叹气声或其他非语音内容。本文将详细介绍在GPT-SoVITS项目中如何高效地批量清理这些未被识别的音频文件。

问题背景

当使用长语音文件进行自动切分和打标处理后，部分音频片段可能由于以下原因未被识别：

纯噪音或非语音内容
音量过低
语音质量差
特殊声音效果（如叹气、咳嗽等）

这些未被识别的片段会占用存储空间，影响后续处理效率，手动删除又极其耗时。

解决方案

核心思路

通过分析生成的list文件（包含所有音频片段及其识别结果的文本文件），筛选出识别结果为空的条目，然后批量删除对应的音频文件。

详细步骤

导出list文件：
- 从GPT-SoVITS项目中导出包含所有音频片段信息的list文件
Excel处理：
- 使用Excel打开list文件
- 应用筛选功能，选择识别文本为空的记录
- 删除这些空记录所在的行
- 保存修改后的list文件
文件系统清理：
- 根据修改后的list文件，删除对应的音频文件
- 可以使用简单的脚本自动化这一过程

进阶技巧

对于更高效的处理，可以考虑以下方法：

Python脚本自动化：

import pandas as pd

# 读取list文件
df = pd.read_csv('audio_list.txt', sep='|', header=None)

# 筛选非空记录
filtered_df = df[df[1].notna() & (df[1].str.strip() != '')]

# 保存新的list文件
filtered_df.to_csv('filtered_list.txt', sep='|', index=False, header=False)

批量删除音频文件：

import os

# 获取需要保留的文件名列表
keep_files = set(filtered_df[0])

# 遍历原始音频目录
for file in os.listdir('audio_dir'):
    if file not in keep_files:
        os.remove(os.path.join('audio_dir', file))