LAMMPS大规模PPPM计算中的负载均衡问题分析与优化

2025-07-01 06:26:21作者：尤辰城Agatha

问题背景

在LAMMPS分子动力学模拟软件中，PPPM（粒子-粒子粒子-网格）方法是处理长程库仑相互作用的重要算法。当研究人员尝试将PPPM算法扩展到超大规模计算（如Frontier超级计算机上的9261节点）时，发现了一个异常的性能"肩部"现象：在512节点时的并行效率比64节点和4096节点时都要低。

现象描述

研究人员观察到以下关键现象：

在64节点到9261节点的弱扩展测试中，512节点表现出意外的性能下降
MPI通信分析显示512节点时MPI_Send调用次数异常增加
FFT网格分解在512节点时出现负载不均衡
4096节点时性能反而比512节点更好

技术分析

FFT网格分解机制

LAMMPS中的PPPM算法使用三维FFT变换，其网格分解策略根据系统规模有两种模式：

一维铅笔分解：当处理器数量小于z方向网格点数时，每个处理器负责完整的xy平面
二维块分解：当处理器数量较多时，使用procs2grid2d函数进行更精细的yz平面分解

问题根源

通过深入分析发现：

在64节点和512节点运行时，系统采用了一维铅笔分解模式
这种模式下，z方向的网格点分配不均匀，导致某些处理器需要处理更多数据
在4096节点时，系统自动切换到二维块分解模式，实现了更好的负载均衡

具体数据对比：

512节点时，某些处理器需要处理66355200个FFT点，而其他处理器只需处理33177600个
4096节点时，所有处理器均匀处理46656000个FFT点

解决方案

通过修改PPPM算法中的网格分解逻辑，强制使用二维块分解模式，可以解决负载不均衡问题。核心修改是移除条件判断，始终调用procs2grid2d函数进行分解。

修改后的效果：

512节点时，所有处理器均匀处理46656000个FFT点
消除了性能"肩部"现象
保持了4096节点时的良好性能

性能影响评估

这种修改虽然增加了通信开销（因为需要进行更多的数据转置），但在超大规模计算中：

负载均衡带来的收益远大于额外通信开销
对于现代高性能网络（如Dragonfly拓扑），通信延迟不再是主要瓶颈
整体计算时间显著减少，特别是在512节点规模时

结论与建议

这项研究发现并解决了LAMMPS PPPM算法在大规模并行计算中的负载均衡问题。对于需要进行超大规模分子动力学模拟的研究人员，建议：

考虑应用类似的网格分解优化
在系统设计时评估负载均衡与通信开销的权衡
对于不同规模的系统，可能需要采用不同的优化策略

这一优化不仅解决了特定规模下的性能问题，也为LAMMPS在下一代超算系统上的高效运行提供了重要参考。

lammps

Public development project of the LAMMPS MD software package

项目地址：https://gitcode.com/gh_mirrors/la/lammps

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力