FunASR项目中AutoModel进行ASR转写时的OOM问题分析与解决方案

2025-05-24 15:40:30作者：温玫谨Lighthearted

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

项目地址：https://gitcode.com/GitHub_Trending/fun/FunASR

问题背景

在使用FunASR项目的AutoModel进行自动语音识别(ASR)转写时，部分用户遇到了CUDA内存不足(OOM)的问题。这个问题通常发生在处理特定音频文件时，系统会抛出"RuntimeError: CUDA out of memory"错误。

错误现象

当用户使用paraformer-zh模型配合fsmn-vad模型进行语音转写时，系统尝试分配190MB显存失败。此时GPU总容量为15.89GB，已分配14.43GB，仅剩余13.88MB空闲。错误信息表明PyTorch预留了14.88GB显存，但实际分配不足。

技术分析

这个问题主要源于以下几个技术因素：

音频分段处理：FunASR的VAD(语音活动检测)模块会将长音频分割成多个片段进行处理。当音频中存在异常长的静音段或特殊音频特征时，可能导致单个分段过大。
显存管理：PyTorch的显存分配机制会预留大量显存，而实际运算时可能无法获得足够连续空间。
模型复杂度：paraformer-zh和seaco_paraformer模型在处理长序列时，显存消耗会随序列长度平方级增长。

解决方案

针对这个问题，可以通过调整VAD参数来控制音频分段大小：

model = AutoModel(
    model="paraformer-zh", 
    model_revision="v2.0.4",
    vad_model="fsmn-vad", 
    vad_model_revision="v2.0.4",
    punc_model="ct-punc-c", 
    punc_model_revision="v2.0.4"
)

result = model.generate(
    input=file,
    batch_size_s=150,
    hotword='地调',
    vad_kwargs={"max_single_segment_time": 60}  # 限制单段最大时长(秒)
)

关键参数说明：

max_single_segment_time：控制VAD分割的最大单段时长，单位为秒。适当减小此值可以降低显存峰值需求。

最佳实践建议

参数调优：根据GPU显存容量，合理设置max_single_segment_time值。对于16GB显存，建议初始值设为60秒，再根据实际情况调整。
监控显存使用：在处理前可使用nvidia-smi命令监控显存使用情况，了解模型运行时的实际需求。
分批处理：对于特别长的音频文件，可考虑先进行人工分割，再分批处理。
模型选择：如果显存限制严格，可考虑使用轻量级模型或降低模型精度(如使用FP16)。