scikit-learn中OpenBLAS 0.3.28线程安全问题的分析与解决方案

2025-05-01 06:15:45作者：羿妍玫Ivan

scikit-learn: machine learning in Python

项目地址：https://gitcode.com/gh_mirrors/sc/scikit-learn

在scikit-learn项目的最新开发过程中，我们发现了一个与OpenBLAS 0.3.28版本相关的线程安全问题。这个问题表现为在多线程环境下执行距离计算时会出现段错误（Segmentation Fault），特别是在使用pthreads线程模型的OpenBLAS实现时。

问题现象

当使用OpenBLAS 0.3.28的pthreads版本时，在特定硬件架构（如Haswell、SkylakeX等）上运行包含并行距离计算的scikit-learn代码时，程序会意外崩溃。典型的崩溃场景包括：

使用pairwise_distances函数计算欧氏距离
结合joblib并行执行BLAS运算
在调用threadpool_limits后创建并行任务

这个问题不会出现在OpenBLAS 0.3.27版本中，也不会出现在使用OpenMP线程模型的OpenBLAS 0.3.28版本中。

技术背景

OpenBLAS是一个高性能的BLAS实现，它支持多种线程模型，包括pthreads和OpenMP。在并行计算场景中，BLAS库的线程安全性至关重要，特别是在以下复杂情况下：

多级并行：当应用层并行（如joblib）与BLAS内部并行同时使用时
线程限制：当动态调整BLAS线程数时
进程分叉：在fork子进程中继续使用BLAS运算

问题根源

通过深入分析，我们发现这个问题的根本原因在于OpenBLAS 0.3.28的pthreads实现在处理多级并行和线程限制时存在缺陷。具体表现为：

线程本地存储(TLS)管理不当
在fork后的子进程中线程状态不一致
线程数限制与并行执行的交互问题

解决方案

目前有以下几种解决方案：

降级OpenBLAS：将OpenBLAS降级到0.3.27版本
- Conda用户：conda install libopenblas=0.3.27
- Pip用户：确保numpy和scipy不使用OpenBLAS 0.3.28
使用OpenMP版本：如果环境允许，使用OpenMP线程模型的OpenBLAS
- Conda用户：mamba install "libopenblas=0.3.28=*openmp*"
设置环境变量：通过设置OPENBLAS_NUM_THREADS或OMP_NUM_THREADS可以避免问题

开发者建议

对于scikit-learn开发者，建议在测试矩阵中加入以下场景：

多核环境下的BLAS并行测试
结合joblib和BLAS并行的测试用例
不同OpenBLAS版本和线程模型的组合测试

对于最终用户，如果遇到类似的段错误问题，建议：

检查OpenBLAS版本和线程模型
尝试限制BLAS线程数
考虑使用OpenMP版本的BLAS实现

未来展望

OpenBLAS开发团队已经在开发版本中修复了这个问题，预计将在0.3.29版本中发布。建议用户关注OpenBLAS的更新，并在稳定版本发布后及时升级。

对于高性能计算应用，线程安全和多级并行是持续需要关注的领域。建议开发者在设计并行算法时充分考虑不同BLAS实现的特性，并进行充分的兼容性测试。

scikit-learn: machine learning in Python

项目地址：https://gitcode.com/gh_mirrors/sc/scikit-learn

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook