Fairseq项目中的Hubert模型ONNX导出问题解析

2025-05-04 22:41:11作者：彭桢灵Jeremy

背景介绍

在深度学习模型部署过程中，将PyTorch模型转换为ONNX格式是一个常见需求。本文针对Fairseq项目中Hubert语音模型的ONNX导出过程进行了深入分析，特别是解决了在转换过程中遇到的关键问题。

初始导出尝试

在最初的导出尝试中，开发者使用了标准的ONNX导出流程：

加载预训练的Hubert模型
创建适配器类处理输入输出
准备输入特征和填充掩码
执行torch.onnx.export导出

from fairseq import checkpoint_utils
import torch

# 加载模型
hubert,_,_ = checkpoint_utils.load_model_ensemble_and_task(
    ["../assets/hubert/hubert_base.pt"],
    suffix="",
)
hubert_model = hubert[0].half()

# 创建适配器
class HuberAdapter(torch.nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model
    
    def forward(self, feats, padding_mask):
        inputs = {
            "source": feats,
            "padding_mask": padding_mask,
            "output_layer": 12
        }
        return self.model.extract_features(**inputs)

遇到的问题

在导出过程中，开发者遇到了两个主要问题：

Tensor对象属性错误：在pad_to_multiple函数中，需要对张量进行填充时出现了Tensor object has no attribute is_integer()的错误。这是由于PyTorch张量不支持直接调用is_integer()方法。
ONNX运行时错误：成功导出ONNX模型后，在推理时出现了广播维度不匹配的错误，具体表现为条件操作数在维度1上无法广播。

解决方案

问题1的解决

针对第一个问题，开发者修改了fairseq/models/wav2vec/utils.py文件中的pad_to_multiple函数：

def pad_to_multiple(x, multiple, dim=-1, value=0):
    if x is None:
        return None, 0
    tsz = x.size(dim)
    m = tsz / multiple
    remainder = math.ceil(m) * multiple - tsz
    m = float(m)  # 将张量转换为浮点数
    if m.is_integer():
        return x, 0
    pad_offset = (0,) * (-1 - dim) * 2
    return F.pad(x, (*pad_offset, 0, remainder), value=value), remainder

关键修改是将张量计算结果显式转换为浮点数，从而能够调用is_integer()方法。

问题2的解决

针对第二个问题，开发者重新设计了适配器类，简化了输入参数并调整了模型调用方式：

class HuberAdapter(torch.nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model
    
    def forward(self, feats):
        return self.model(
            source=feats,
            output_layer=12,
            features_only=True,
            mask=False
        )['x']