MFEM中矩阵自由方法与经典矩阵组装方法的性能对比分析

2025-07-07 15:50:01作者：柏廷章Berta

概述

本文探讨了在使用MFEM框架时，矩阵自由(partial assembly)方法与经典矩阵组装方法在求解偏微分方程时的性能差异。通过实际测试案例，我们发现矩阵自由方法在某些情况下可能比传统方法更慢，这与预期不符。

测试环境与案例

测试基于MFEM的示例程序ex1，在3D Fichera网格上求解Poisson方程，使用4阶基函数，自由度约为2400万。测试平台为CPU环境下的VMware虚拟机。

性能对比结果

经典FEM求解器：使用GSSmoother预处理器，80次迭代，耗时36秒
矩阵自由CG求解器：
- 使用组装矩阵预处理器：80次迭代，47秒
- 使用LOR预处理器：138次迭代，45秒
- 使用OperatorJacobiSmoother预处理器：195次迭代，59秒

性能差异分析

矩阵自由方法理论上应在矩阵-向量乘法运算上更快，但实际测试显示：

矩阵自由方法的每次迭代时间并未显著优于稀疏矩阵-向量乘法
矩阵自由方法通常需要更多迭代次数

可能原因包括：

基函数阶数不够高(仅4阶)，未能充分发挥矩阵自由方法的优势
缺乏AVX向量化支持
预处理器的选择不当

优化建议

针对H1空间问题：

使用HYPRE的BoomerAMG预处理器
尝试p-多重网格方法(ex26p示例)
结合LOR和BoomerAMG的预处理器组合

针对H(curl)和H(div)空间问题：

分别使用AMS和ADS预处理器
对于H(div)问题，可考虑混合化求解器

LOR预处理器的特殊优化

测试发现，使用LORSolver比直接使用GSSmoother预处理器在LOR双线性形式上效率更高(46次迭代vs69次迭代)。这是因为LORSolver采用了共位积分来组装低阶细化系统，这种降阶积分策略实际上能为高阶系统提供更好的预处理效果。

预处理器设置顺序的影响

在完全组装模式下，预处理器设置顺序会影响收敛性：

先设置预处理器再设置算子：迭代次数更少但总时间更长
先设置算子再设置预处理器：迭代次数更多但总时间更短

这种差异源于MFEM内部对算子-预处理器交互处理方式的优化，已在后续版本中修复。

结论

矩阵自由方法的性能优势在特定条件下才能显现，包括：

足够高的基函数阶数
适当的预处理器选择
硬件向量化支持
针对特定问题空间(H1/Hcurl/Hdiv)的专用预处理器

在实际应用中，建议根据具体问题特点进行方法选择和参数调优，以获得最佳性能。

mfem

Lightweight, general, scalable C++ library for finite element methods

项目地址：https://gitcode.com/gh_mirrors/mf/mfem

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781