GPT-SoVITS项目中SSL特征提取的内存优化实践

2025-05-01 10:45:51作者：瞿蔚英Wynne

背景介绍

在语音合成领域，GPT-SoVITS项目是一个基于Transformer架构的端到端语音合成系统。该项目在特征提取阶段使用了SSL(Self-Supervised Learning)模型来获取音频的高级表示，这一步骤对最终合成语音的质量至关重要。

问题发现

在项目开发过程中，团队发现当处理大量音频数据时，特征提取环节会出现内存泄漏问题，特别是在处理异常音频数据时更为明显。具体表现为：

当音频数据包含NaN(非数字)值时，程序会提前返回，但此时GPU内存未被正确释放
频繁调用torch.cuda.empty_cache()虽然可以缓解内存问题，但会显著降低整体处理速度
异常处理流程中存在资源释放不彻底的情况

技术分析

SSL特征提取流程主要涉及以下几个关键步骤：

音频加载与预处理：将音频采样率统一转换为32kHz，并进行幅度归一化处理
动态范围控制：通过maxx和alpha参数控制音频的动态范围
重采样处理：将32kHz音频降采样到16kHz以适应SSL模型输入
特征提取：使用预训练的SSL模型获取音频的高级表示
结果保存：将提取的特征和预处理后的音频分别保存

内存泄漏主要发生在特征提取环节，特别是当遇到异常数据提前返回时，GPU张量未能被正确释放。

优化方案

针对上述问题，项目团队提出了以下优化措施：

异常处理完善：在提前返回前确保所有GPU资源都被释放
内存释放策略优化：避免在每次循环中都调用torch.cuda.empty_cache()
资源管理加强：使用try-finally块确保资源释放
NaN检测机制：增加对输出特征的NaN值检查，防止无效数据影响后续处理

优化后的核心代码如下：

def name2go(wav_name, wav_path):
    hubert_path = f"{hubert_dir}/{wav_name}.pt"
    if os.path.exists(hubert_path):
        return
    
    # 音频加载与预处理
    tmp_audio = load_audio(wav_path, 32000)
    tmp_max = np.abs(tmp_audio).max()
    
    # 动态范围控制
    if tmp_max > 2.2:
        print(f"{wav_name}-filtered, {tmp_max}")
        return
    
    tmp_audio32 = (tmp_audio / tmp_max * (maxx * alpha * 32768)) + ((1 - alpha) * 32768) * tmp_audio
    tmp_audio32b = (tmp_audio / tmp_max * (maxx * alpha * 1145.14)) + ((1 - alpha) * 1145.14) * tmp_audio
    
    # 重采样处理
    tmp_audio = librosa.resample(tmp_audio32b, orig_sr=32000, target_sr=16000)
    tensor_wav16 = torch.from_numpy(tmp_audio).to(device)
    
    if is_half:
        tensor_wav16 = tensor_wav16.half()
    
    # 特征提取与异常处理
    try:
        with torch.no_grad():
            ssl = model.model(tensor_wav16.unsqueeze(0))["last_hidden_state"].transpose(1, 2).cpu()
        
        # NaN检测
        if torch.isnan(ssl).any():
            nan_fails.append((wav_name, wav_path))
            print(f"nan filtered: {wav_name}")
            return
        
        # 结果保存
        wavfile.write(f"{wav32dir}/{wav_name}", 32000, tmp_audio32.astype("int16"))
        my_save(ssl, hubert_path)
    
    except Exception as e:
        print(f"Error processing {wav_name}: {e}")
    
    finally:
        # 资源释放
        del tensor_wav16, ssl
        torch.cuda.empty_cache()
        gc.collect()