Ultralytics YOLOv11在MPS设备上的性能优化实践

2025-05-02 20:57:53作者：盛欣凯Ernestine

在Mac平台上使用MPS(Metal Performance Shaders)加速PyTorch模型推理时，开发者经常会遇到一些性能瓶颈问题。本文将以Ultralytics YOLOv11模型为例，深入分析在MPS设备上遇到的Tensor与NumPy输入性能差异问题，并提供有效的优化方案。

问题现象

当在MPS设备上运行YOLOv11模型时，发现使用不同方式生成的输入张量会导致显著的性能差异：

尽管两种张量具有完全相同的形状(10,3,640,640)、数据类型(float32)和设备位置(MPS)，但后者在包含非极大值抑制(NMS)后处理时的性能明显优于前者。

通过详细的基准测试，我们获得了以下关键数据：

仅推理阶段(不含NMS)

完整流程(含NMS)

这些数据揭示了一个有趣的现象：虽然NumPy转换张量在纯推理阶段稍慢，但在包含NMS后处理时却表现出显著优势。

通过深入调查，我们发现性能差异主要来源于以下几个方面：

基于上述分析，我们提出以下优化建议：

这种性能差异的根本原因可能与MPS设备的内部工作机制有关：

对于实际项目部署，我们建议：

通过以上优化措施，开发者可以在MPS设备上获得更加稳定和高效的YOLOv11模型推理性能，充分发挥苹果硬件平台的加速潜力。

登录后查看全文