Triton推理服务器中HRNet模型预处理缺失导致预测异常问题解析

2025-05-25 18:14:46作者：申梦珏Efrain

问题背景

在使用NVIDIA Triton推理服务器部署HRNet W30分类模型时，开发团队遇到了一个棘手的问题：模型在转换为TensorRT格式后，通过Triton服务器进行推理时始终输出相同的预测结果（第一类置信度为1，第二类为0），而同样的模型在其他测试环境中却能正常工作。

技术分析

模型部署流程

该分类模型基于MMPretrain框架（底层使用PyTorch）训练，通过MMDeploy工具转换为TensorRT格式后部署到Triton服务器。整个流程包含三个关键组件：

预处理模型：使用DALI（NVIDIA Data Loading Library）构建的图像预处理流水线
推理模型：HRNet W30转换后的TensorRT模型
集成模型：将预处理和推理模型组合为一个端到端服务

问题定位过程

开发团队首先排除了模型转换问题，因为：

原始PyTorch模型表现正常
转换后的TensorRT模型通过MMPretrain的测试脚本也能正确分类

问题指向Triton服务器端的处理流程。通过仔细对比测试环境和生产环境的差异，发现关键区别在于预处理环节。

根本原因

预处理流程中缺少归一化操作是导致预测异常的根本原因。在模型训练和测试时，数据预处理包含以下关键步骤：

图像大小调整
中心裁剪
像素值归一化（将0-255的像素值缩放到0-1范围）

然而在部署到Triton时，DALI预处理流水线仅实现了前两步，遗漏了关键的归一化操作。这导致输入到模型的数值范围与训练时不一致，从而引发预测异常。

解决方案

修改DALI预处理流水线，添加归一化操作：

@pipeline_def(batch_size=256, num_threads=4, device_id=0)
def hrnet_w30_cls_preprocess_pipeline():
    device = "gpu"
    images = fn.external_source(device=device, name="INPUT_PREPROCESS")
    images = fn.resize(images, size=(512, 384), mode="not_larger", device=device)
    images = fn.crop(images, crop=(512, 384), out_of_bounds_policy="pad", device=device)
    images = fn.cast(images, dtype=FLOAT, device=device)
    # 添加归一化操作
    images = fn.normalize(images, mean=0.0, stddev=255.0, device=device)
    return images