OpenBLAS项目中NVHPC编译器下的LAPACK测试问题分析

2025-06-01 15:25:32作者：邓越浪Henry

问题背景

在OpenBLAS项目中，使用NVHPC 23.7编译器（搭配CUDA 12.1.1）构建时，LAPACK测试套件出现了大量数值错误。这一问题在不同版本的OpenBLAS中表现不同，特别是在0.3.27版本中错误率显著增加。

测试环境与现象

测试环境配置如下：

CPU: AMD EPYC 7452 (Zen2架构)
GPU: NVIDIA A100
编译器: NVHPC 23.7
编译标志: 测试了多种组合(-O2、-tp=host、-Mflushz等)

测试结果显示：

OpenBLAS 0.3.23版本：数值错误率约0.028%
OpenBLAS 0.3.24版本：数值错误率约0.030%
OpenBLAS 0.3.27版本：数值错误率骤升至2.980%

问题根源分析

经过深入调查，发现问题的根本原因在于LAPACK 3.12版本中引入的?GEQP3RK函数（带列主元的截断QR分解）。这一变化被OpenBLAS 0.3.26版本吸收后，导致了测试错误率的显著上升。

解决方案

针对这一问题，开发团队提出了修复方案：

应用特定的补丁（PR 961）可以显著减少测试错误
补丁修复了测试用例中的数值比较阈值问题
特别注意需要取消对双精度情况修复的注释

应用补丁后的测试结果：

双精度测试错误率从4.384%降至0%
总体错误率从1.191%降至0.005%

技术建议

对于使用NVHPC编译器构建OpenBLAS的用户，建议：

避免同时使用-tp=host和-Mflushz优化标志
对于Zen架构CPU，明确指定-tp=zen可能获得更好结果
关注LAPACK上游对?GEQP3RK相关测试的持续改进

结论

这一问题展示了数值计算软件栈中编译器优化、算法实现和测试验证之间复杂的相互作用关系。通过精确调整测试容差和应用针对性补丁，可以有效解决大部分测试失败问题。开发团队将继续跟踪上游LAPACK的改进，确保OpenBLAS在不同编译环境下的数值稳定性。

OpenBLAS

OpenBLAS is an optimized BLAS library based on GotoBLAS2 1.13 BSD version.

项目地址：https://gitcode.com/gh_mirrors/op/OpenBLAS

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

OpenBLAS项目中NVHPC编译器下的LAPACK测试问题分析

问题背景

测试环境与现象

问题根源分析

解决方案

技术建议

结论

热门内容推荐

最新内容推荐

项目优选

OpenBLAS项目中NVHPC编译器下的LAPACK测试问题分析

问题背景

测试环境与现象

问题根源分析

解决方案

技术建议

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选