YOLO-World模型从PyTorch到ONNX转换的性能差异分析与解决方案

2025-06-07 17:53:18作者：羿妍玫Ivan

问题背景

在计算机视觉领域，YOLO-World作为一款先进的实时目标检测框架，因其出色的性能而广受欢迎。然而，在实际部署过程中，开发者们发现将PyTorch模型转换为ONNX格式后，模型的检测结果出现了显著的性能差异。这种差异尤其体现在面部特征检测等精细任务上，导致ONNX模型的检测效果明显劣于原始PyTorch模型。

问题现象

开发者们报告的主要现象包括：

面部特征检测结果不一致：PyTorch模型能够准确检测出人脸、眼睛、鼻子和嘴巴等特征，而ONNX模型则出现漏检或误检情况。
特征图数值差异：即使在网络的第一层卷积后，ONNX模型和PyTorch模型输出的特征图就存在微小差异（平均误差约2e-08），随着网络深入，这种差异逐渐放大，在stage 3/4/5输出的特征图上，最大像素误差分别达到约0.001、0.014和0.016。
后处理流程问题：ONNX推理过程中的后处理步骤（如NMS）实现方式与PyTorch版本存在差异，进一步加剧了结果不一致。

根本原因分析

经过深入调查，发现导致性能差异的主要原因有以下几个方面：

文本输入对齐问题：在模型导出时未使用--add-padding标志，导致文本输入在ONNX模型和PyTorch模型中的处理方式不一致。
图像预处理流程差异：ONNX推理demo中的预处理流程采用了"先填充后缩放"的方式，这与常规处理顺序不同，可能引入插值误差。
算子替换问题：在ONNX转换过程中，某些PyTorch算子被替换为ONNX等效算子，这些替换可能引入微小的数值差异。
后处理实现差异：ONNX版本的NMS实现与PyTorch版本存在细节差异，特别是在边界框坐标处理和分数阈值过滤方面。

解决方案与最佳实践

针对上述问题，建议采取以下解决方案：

正确导出ONNX模型：

PYTHONPATH=./ python deploy/export_onnx.py \
    ./configs/pretrain/yolo_world_v2_s_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_lvis_minival.py \
    ../checkpoints/yolo_world_v2_s_obj365v1_goldg_pretrain-55b943ea.pth \
    --custom-text ../custom.json \
    --opset 12 \
    --without-nms \
    --add-padding