GPT-SoVITS项目中达摩ASR推理错误的解决方案

2025-05-02 06:11:27作者：庞队千Virginia

在语音识别技术应用中，达摩ASR（Automatic Speech Recognition）是一个重要的工具组件。然而，在GPT-SoVITS项目中使用达摩ASR进行日语语音识别时，开发者可能会遇到一个典型的类型错误问题。

错误现象分析

当运行达摩ASR进行推理时，系统会抛出RuntimeError异常，错误信息明确指出："Expected tensor for argument #1 'indices' to have one of the following scalar types: Long, Int; but got torch.cuda.DoubleTensor instead"。这个错误发生在PyTorch的embedding操作中，表明输入张量的数据类型不符合预期。

深入分析错误堆栈可以发现，问题出现在FunASR库的CT-Transformer模型进行标点预测阶段。模型期望接收Long或Int类型的张量作为输入，但实际获得的是Double类型的张量。

根本原因

经过技术分析，这个问题主要由两个关键因素导致：

语言支持限制：达摩ASR模型主要针对中文语音识别优化，其内置的标点预测模型也是基于中文语料训练。当输入非中文语音（如日语）时，模型处理流程会出现不兼容情况。
数据类型不匹配：在模型处理流程中，语音识别结果被错误地转换为Double类型张量，而后续的embedding层要求输入必须是Long或Int类型。

解决方案

针对这一问题，推荐以下解决方案：

使用合适的语音识别工具：对于非中文语音识别任务，建议采用Faster Whisper等支持多语言的语音识别工具。这些工具经过专门优化，能够更好地处理日语等语言的语音特征。
版本检查与更新：确保使用的FunASR版本不低于1.0.0。可以通过pip show funasr命令查看当前版本，必要时进行升级。
数据类型转换：如果必须使用达摩ASR处理非中文语音，可以在模型调用前手动将输入张量转换为Long类型，但这只能解决数据类型问题，不能保证识别质量。