YOLOv9与YOLOv7系列模型在TensorRT上的性能对比分析

2025-05-25 11:23:23作者：霍妲思

引言

目标检测作为计算机视觉领域的核心任务之一，其模型性能直接影响实际应用效果。本文针对YOLOv9和YOLOv7系列模型在TensorRT引擎上的性能表现进行深入分析，通过对比测试数据揭示各模型在推理速度、延迟等方面的差异，为开发者提供模型选型参考。

测试环境配置

本次性能测试采用以下硬件配置：

GPU：NVIDIA RTX 4090（计算能力8.9）
CPU：AMD Ryzen 7 3700X 8核处理器
内存：16GB

软件环境：

TensorRT版本：8.6.1
测试方法：所有模型均转换为ONNX格式并启用动态批处理，使用TensorRT Engine Explorer(TREx)进行分析

模型性能对比

基础性能指标

我们主要关注三个核心指标：

吞吐量(IPS)：每秒处理的推理数量
平均时间：各层延迟的总和
延迟：包括最小、最大、平均、中位数及99百分位延迟

YOLOv7与YOLOv9对比数据

模型名称	吞吐量(IPS)	平均时间(ms)	最小延迟(ms)	最大延迟(ms)	平均延迟(ms)
YOLOv7	978	1.441	1.012	1.104	1.020
YOLOv7x	609	2.065	1.613	1.751	1.640
YOLOv9-c	798	2.049	1.246	1.359	1.251
YOLOv9-e	353	4.261	2.807	3.032	2.823

深入分析

吞吐量表现：
- YOLOv7基础版表现最佳，达到978 IPS
- YOLOv9-c略低于YOLOv7，但优于YOLOv7x
- 大型模型YOLOv9-e的吞吐量最低，这与模型复杂度直接相关
延迟特性：
- YOLOv9-c在延迟表现上优于YOLOv7x，平均延迟降低约24%
- 所有模型的99百分位延迟与平均延迟接近，说明推理过程稳定
模型规模影响：
- 随着模型参数增加，性能下降明显
- YOLOv9-e的延迟是YOLOv9-c的2.26倍，而吞吐量仅为后者的44%

技术要点说明

模型优化：
- 测试中使用了转换后的YOLOv9模型(yolov9-c-converted.pt)，移除了PGI辅助分支
- 这种优化显著提升了推理效率，使模型架构与GELAN系列保持一致
TensorRT优势：
- 通过TensorRT的层融合和精度优化(如FP16)，大幅提升推理速度
- 动态批处理能力使模型更适合实际部署场景
不同设备表现：
- 在RTX 2080Ti上的测试显示类似趋势，但绝对性能低于RTX 4090
- 嵌入式设备如Jetson Xavier AGX上，YOLOv9-c可达到约36fps的实时性能

实际应用建议

高吞吐场景：
- 优先考虑YOLOv7基础版
- 若需要更好精度，YOLOv9-c是平衡选择
精度优先场景：
- YOLOv9-e提供最佳检测质量
- 需接受较高的计算资源消耗
边缘设备部署：
- 建议使用转换后的YOLOv9模型
- 启用FP16精度可显著提升性能

结论

YOLOv9系列在保持较高精度的同时，通过模型结构优化在TensorRT上展现了有竞争力的性能表现。特别是YOLOv9-c模型，在吞吐量和延迟方面都优于YOLOv7x，成为中大型模型的优选方案。开发者应根据具体应用场景在速度和精度之间做出权衡，而TensorRT的优化能力为各类部署环境提供了良好的支持。

yolov9

Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

项目地址：https://gitcode.com/GitHub_Trending/yo/yolov9

登录后查看全文