TensorRTX项目中YOLOv5推理结果与PyTorch不一致问题解析

2025-05-30 18:03:40作者：廉皓灿Ida

问题背景

在TensorRTX项目中使用YOLOv5模型进行目标检测时，开发者发现通过TensorRT引擎推理得到的边界框中心坐标与PyTorch推理结果存在差异，而宽度和高度则基本一致。这一问题影响了模型评估的准确性，特别是在需要精确比较两种实现方式性能的场景下。

差异原因分析

经过深入分析，发现这种差异主要来源于两种实现方式在图像预处理阶段采用了不同的缩放策略：

TensorRTX实现：使用了等比缩放策略

float scale = std::min(dst_height / (float)src_height, dst_width / (float)src_width);

PyTorch实现：采用了保持纵横比的缩放策略

shape0.append(s)  # image shape
g = max(size) / max(s)  # gain

这两种不同的预处理方式导致了模型输入的特征分布存在细微差别，进而影响了最终检测结果的坐标值。

解决方案

为了确保TensorRTX推理结果与PyTorch保持一致，需要对检测结果的坐标进行后处理转换。关键点在于理解并实现正确的坐标映射关系：

坐标转换原理：
- 首先计算输入图像与模型输入尺寸的比例关系
- 根据不同的缩放情况（宽度受限或高度受限）采用不同的补偿策略
- 将模型输出的归一化坐标映射回原始图像空间

实现代码：以下C++函数实现了从模型输出坐标到原始图像坐标的转换：

std::tuple<float, float, float, float> get_rect_values(cv::Mat& img, float bbox[4]) {
    float l, r, t, b;
    float r_w = kInputW / (img.cols * 1.0);
    float r_h = kInputH / (img.rows * 1.0);
    
    if (r_h > r_w) {
        // 宽度受限情况
        l = bbox[0] - bbox[2] / 2.f;
        r = bbox[0] + bbox[2] / 2.f;
        t = bbox[1] - bbox[3] / 2.f - (kInputH - r_w * img.rows) / 2;
        b = bbox[1] + bbox[3] / 2.f - (kInputH - r_w * img.rows) / 2;
        l = l / r_w;
        r = r / r_w;
        t = t / r_w;
        b = b / r_w;
    } else {
        // 高度受限情况
        l = bbox[0] - bbox[2] / 2.f - (kInputW - r_h * img.cols) / 2;
        r = bbox[0] + bbox[2] / 2.f - (kInputW - r_h * img.cols) / 2;
        t = bbox[1] - bbox[3] / 2.f;
        b = bbox[1] + bbox[3] / 2.f;
        l = l / r_h;
        r = r / r_h;
        t = t / r_h;
        b = b / r_h;
    }
    
    return std::make_tuple(l, t, r - l, b - t);
}

技术要点

比例计算：
- r_w和r_h分别表示宽度和高度方向上的缩放比例
- 通过比较这两个比例可以确定图像是宽度受限还是高度受限
补偿策略：
- 对于受限的维度，需要补偿因保持纵横比而添加的padding
- 补偿值计算为(kInputH - r_w * img.rows) / 2或(kInputW - r_h * img.cols) / 2
坐标映射：
- 将模型输出的归一化坐标减去补偿值
- 然后除以相应的缩放比例，映射回原始图像空间

实际应用

在实际评估模型性能时，开发者可以：

使用上述函数转换TensorRT推理结果
将转换后的坐标与PyTorch推理结果进行比较
确保两种实现方式在相同的评估标准下进行对比

这种方法不仅解决了坐标不一致的问题，也为后续的模型优化和部署提供了可靠的技术基础。

总结

TensorRTX项目中YOLOv5推理结果与PyTorch的差异主要源于预处理策略的不同。通过实现正确的坐标后处理转换，可以确保两种实现方式的评估结果具有可比性。这一解决方案不仅适用于当前的评估需求，也为后续的模型部署和优化提供了重要的技术参考。

tensorrtx

Implementation of popular deep learning networks with TensorRT network definition API

项目地址：https://gitcode.com/gh_mirrors/te/tensorrtx

登录后查看全文