DeepMD-kit中PyTorch并行训练的内存溢出问题分析与解决方案

2025-07-10 23:03:34作者：房伟宁

A deep learning package for many-body potential energy representation and molecular dynamics

项目地址：https://gitcode.com/gh_mirrors/de/deepmd-kit

问题背景

在DeepMD-kit分子动力学模拟工具中，使用PyTorch后端进行并行训练时，在邻居统计步骤出现了内存溢出(OOM)的问题。这个问题主要发生在使用V100等显存较小的GPU卡时，特别是在多卡并行训练的场景下。

问题现象

当用户使用torchrun启动多进程训练时（例如4个进程），所有进程会默认使用第一个GPU进行计算，导致第一个GPU显存被占满而其他GPU显存几乎空闲。具体表现为：

第一个GPU显存使用率达到接近100%（如15.2GB/16GB）
其他GPU显存使用率很低（如1.5GB/16GB）
最终抛出CUDA out of memory错误，导致训练中断

技术分析

根本原因

经过深入分析，发现该问题由以下几个因素共同导致：

邻居统计步骤的并行处理不当：当前实现中，所有rank都会独立执行邻居统计计算，但实际上这个步骤只需要在rank 0上执行一次即可，其他rank可以直接使用结果。
PyTorch设备分配问题：在DDP（分布式数据并行）初始化前，PyTorch的默认设备分配机制可能导致所有进程都默认使用第一个GPU。
自动批处理大小模块的异常捕获不完善：当前的自动批处理大小模块未能正确捕获PyTorch的OOM异常，特别是当使用TorchScript时，抛出的异常类型与常规情况不同。

技术细节

邻居统计的计算特性：
- 邻居统计是一个确定性的计算过程
- 计算结果在所有rank上应该一致
- 重复计算浪费计算资源且增加内存压力
PyTorch设备管理：
- 在DDP初始化前，需要显式设置设备
- TorchScript对OOM异常的处理与常规PyTorch不同
内存管理：
- 邻居统计步骤会产生大量临时张量
- 多进程同时计算会指数级增加显存需求

解决方案

短期解决方案

优化邻居统计的执行策略：
- 只在rank 0上执行邻居统计计算
- 通过进程间通信将结果广播到其他rank
- 避免重复计算和内存浪费
显式设备管理：
- 在关键计算步骤前显式设置CUDA设备
- 确保计算均匀分布在所有可用GPU上
完善异常处理：
- 同时捕获RuntimeError和OutOfMemoryError
- 针对TorchScript的特殊情况进行处理

长期改进方向

分离计算流程：
- 将邻居统计拆分为独立的前处理步骤
- 支持从文件加载预先计算的结果
内存优化：
- 实现更高效的内存管理策略
- 支持分块处理大型数据集
文档完善：
- 添加显存使用最佳实践指南
- 提供针对不同硬件配置的调优建议

实施建议

对于遇到类似问题的用户，可以采取以下临时解决方案：

减少并行进程数量
使用更大显存的GPU
手动设置CUDA_VISIBLE_DEVICES环境变量
在训练前单独执行邻居统计并保存结果

开发团队将持续优化DeepMD-kit的内存管理机制，特别是在PyTorch后端下的并行训练场景，为用户提供更稳定高效的计算体验。

A deep learning package for many-body potential energy representation and molecular dynamics

项目地址：https://gitcode.com/gh_mirrors/de/deepmd-kit

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。