MMDetection 3.x在SageMaker环境中的性能优化实践

2025-05-04 14:29:26作者：蔡怀权

背景介绍

MMDetection作为计算机视觉领域广泛使用的目标检测框架，在升级到3.x版本后，部分用户在使用AWS SageMaker Deep Learning Containers进行训练时遇到了显著的性能下降问题。本文将详细分析这一现象的原因，并提供有效的解决方案。

问题现象

在从MMDetection 2.x升级到3.x版本的过程中，用户观察到训练速度出现了20倍的显著下降。具体表现为：

使用PyTorch 1.9.1基础镜像的MMDetection 2.25.0版本，每个迭代耗时约0.6-1.0秒
升级到MMDetection 3.x后，使用PyTorch 2.1.0基础镜像，每个迭代耗时激增至11秒以上

环境配置对比

旧环境配置（性能正常）

基础镜像：PyTorch 1.9.1 + CUDA 11.1
MMDetection 2.25.0
MMCV-Full 1.4.5
安装方式：直接通过pip安装指定版本

新环境配置（性能下降）

基础镜像：PyTorch 2.1.0 + CUDA 12.1
MMDetection 3.x
MMCV 2.0.0+
安装方式：通过mim工具安装

问题排查过程

初步分析：首先怀疑是MMDetection 3.x版本本身的问题，但社区反馈显示该版本在其他环境下性能正常
环境隔离：尝试在PyTorch 1.9.1基础镜像上编译MMDetection 3.x，但遇到CUDA库缺失问题
版本验证：测试多个PyTorch版本后发现，PyTorch 2.2.0基础镜像解决了性能问题

根本原因

经过深入分析，性能下降的主要原因包括：

CUDA版本兼容性：PyTorch 2.1.0与CUDA 12.1的组合可能存在某些未优化的操作
编译选项差异：不同版本的PyTorch基础镜像使用了不同的底层编译优化
依赖管理变化：从直接pip安装到使用mim工具安装，可能引入了不同的依赖版本组合

解决方案

最终确认的优化方案是使用PyTorch 2.2.0基础镜像，配置如下：

FROM 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker

WORKDIR /opt/ml/code
ENV ENVROOT /opt/ml/code
COPY . /opt/ml/code

ENV FORCE_CUDA=1
RUN pip install --upgrade pip

# 安装MMDetection 3.x及其依赖
RUN pip install -U openmim
RUN mim install mmengine
RUN mim install "mmcv>=2.0.0"
RUN mim install mmdet

ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code
ENV SAGEMAKER_PROGRAM train.py

WORKDIR /

性能对比结果

使用优化后的配置，训练性能得到显著提升：

迭代时间：从11秒降至0.6-0.8秒
内存占用：从6906MB降至7008MB（略有增加但可接受）
训练稳定性：损失曲线收敛正常，无异常波动

最佳实践建议

基础镜像选择：推荐使用PyTorch 2.2.0及以上版本的基础镜像
CUDA版本：优先选择CUDA 12.1环境
安装方式：使用mim工具确保依赖版本的正确匹配
环境变量：设置FORCE_CUDA=1确保正确启用GPU加速
监控指标：训练初期关注迭代时间和内存占用变化

总结

MMDetection 3.x在SageMaker环境中的性能问题主要源于PyTorch版本与CUDA环境的兼容性。通过选择合适的PyTorch基础镜像版本，可以充分发挥MMDetection 3.x的性能优势。建议用户在升级时充分考虑底层环境的兼容性，并进行充分的性能测试验证。

mmdetection

OpenMMLab Detection Toolbox and Benchmark

项目地址：https://gitcode.com/gh_mirrors/mm/mmdetection

登录后查看全文