PaddleDetection中PP-YOLOE-SOD模型推理性能分析

2025-05-17 03:00:23作者：谭伦延

PaddleDetection

Object Detection toolkit based on PaddlePaddle. It supports object detection, instance segmentation, multiple object tracking and real-time multi-person keypoint detection.

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleDetection

背景介绍

在目标检测领域，小目标检测一直是一个具有挑战性的任务。PaddleDetection项目中的PP-YOLOE-SOD系列模型是专门针对小目标检测优化的高性能模型。然而在实际应用中，用户发现了一个有趣的现象：模型推理速度与模型大小并不完全成正比。

现象描述

在测试PP-YOLOE-SOD系列模型时，观察到以下现象：

PP-YOLOE+_SOD-largesize-l模型：输入尺寸1920x1920，推理时间895.9ms
PP-YOLOE+_SOD-l模型：输入尺寸640x640，推理时间282.3ms
PP-YOLOE+_SOD-s模型：输入尺寸640x640，推理时间405.4ms

令人意外的是，较小的S模型比L模型推理速度更慢，这与常规认知相悖。

原因分析

经过深入分析，发现这种现象主要由以下几个因素造成：

输入尺寸差异：largesize-l模型使用了更大的输入分辨率(1920x1920)，这显著增加了计算量，导致其推理时间最长。
后处理时间影响：在测试场景中，图像包含189个目标，NMS(非极大值抑制)操作消耗了大量时间。虽然S模型参数量较小，但NMS处理时间与检测框数量直接相关，而与模型大小关系不大。
模型结构特性：小目标检测模型通常具有更密集的检测头设计，这可能导致虽然整体参数量减少，但某些计算密集型操作的比例增加。

技术建议

针对小目标检测场景下的性能优化，可以考虑以下方案：

模型选择：如果场景中目标数量较多，可以考虑使用基于Transformer的检测模型(如DETR系列)，这类模型的后处理时间与目标数量无关。
输入尺寸调整：在精度允许的情况下，适当降低输入分辨率可以显著提升推理速度。
后处理优化：可以尝试以下方法优化NMS：
- 使用更高效的NMS实现
- 调整NMS阈值参数
- 采用级联NMS策略
硬件加速：启用TensorRT等推理加速引擎，特别优化NMS操作。

总结

在目标检测模型的实际应用中，推理速度不仅受模型大小影响，还与输入尺寸、后处理复杂度等因素密切相关。特别是在小目标检测场景下，由于目标数量通常较多，NMS等后处理操作可能成为性能瓶颈。开发者需要综合考虑模型结构、输入配置和后处理效率，才能获得最佳的实际应用性能。

对于高密度小目标检测场景，建议优先评估基于Transformer的端到端检测模型，这类模型可以避免传统检测器中NMS带来的性能问题。

PaddleDetection

Object Detection toolkit based on PaddlePaddle. It supports object detection, instance segmentation, multiple object tracking and real-time multi-person keypoint detection.

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleDetection

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。