解决Fairseq中Hubert模型导出ONNX时的广播维度问题

2025-05-04 00:08:37作者：尤辰城Agatha

问题背景

在使用Fairseq框架中的Hubert语音模型时，开发者经常需要将训练好的PyTorch模型导出为ONNX格式以便部署。然而在实际操作过程中，会遇到一个典型的维度广播错误，导致ONNX模型无法正常推理。

错误现象

当尝试将Hubert模型导出为ONNX格式后，在ONNX Runtime中运行推理时会出现以下错误：

[ONNXRuntimeError] : 1 : FAIL : Non-zero status code returned while running Where node. 
Name:'/encoder/Where' Status Message: /encoder/Where: condition operand cannot broadcast on dim 1 
Condition Shape: {1,100}, X Shape: {}, Y Shape: {1,100,768}

这个错误表明在模型的计算图中，Where操作符在进行条件判断时遇到了维度不匹配的问题，无法在维度1上进行广播。

问题根源分析

经过深入分析，这个问题主要源于以下几个方面：

原始模型结构复杂性：Hubert模型内部包含复杂的注意力机制和掩码处理逻辑
维度广播规则差异：PyTorch和ONNX在维度广播规则上存在细微差别
padding_mask处理：原始实现中对padding_mask的处理方式在ONNX导出时不够友好

解决方案

通过修改模型适配器(HuberAdapter)的实现方式，可以成功解决这个问题。以下是改进后的适配器实现：

class HuberAdapter(torch.nn.Module):
    def __init__(self, model):
        super(HuberAdapter, self).__init__()
        self.model = model
        
    def forward(self, feats):
        return self.model(
            source=feats,
            output_layer=12,
            features_only=True,
            mask=False
        )['x']

这个改进方案的关键点在于：

简化输入参数：去除了padding_mask作为显式输入参数
直接调用模型：使用model的直接调用方式而非extract_features方法
明确输出格式：指定features_only=True和mask=False来简化输出结构

实施步骤

首先加载预训练的Hubert模型
创建改进后的适配器类
准备输入特征张量
使用torch.onnx.export进行模型导出

完整的导出代码如下：

from fairseq import checkpoint_utils
import torch

# 加载预训练模型
hubert, _, _ = checkpoint_utils.load_model_ensemble_and_task(
    ["hubert_base.pt"],
    suffix="",
)
hubert_model = hubert[0].half()

# 创建适配器
adapter = HuberAdapter(hubert_model)

# 导出ONNX模型
torch.onnx.export(
    adapter.cuda(),
    feats.cuda(),
    "hubert.onnx",
    input_names=["feats"],
    output_names=["logits"],
    dynamic_axes={"feats": {0: "seq"}},
    opset_version=14,
    do_constant_folding=True,
)