SPDK项目中NVMe设备热移除测试引发的内核崩溃问题分析

2025-06-25 03:27:05作者：裘晴惠Vivianne

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

问题背景

在SPDK存储性能开发套件的持续集成测试中，发现一个与NVMe over Fabrics(RDMA)设备热移除相关的稳定性问题。具体表现为在执行nvmf_device_removal_pci_remove测试用例时，系统会出现内核崩溃导致测试节点失去响应。这个问题在多个测试环境中反复出现，严重影响了CI/CD管道的可靠性。

问题现象

测试过程中，当尝试通过PCIe热移除机制断开RDMA设备连接时，系统表现出以下异常行为：

设备驱动层出现错误日志："rdma_disconnect failed, errno Invalid argument"
内核日志显示Mellanox网卡驱动(mlx5_core)在设备移除过程中出现超时和资源泄漏
最终系统触发"general protection fault"或"unable to handle page fault"等严重错误
节点失去响应，导致Jenkins构建超时失败

技术分析

内核驱动问题

从收集的内核日志可以看出，问题主要发生在Linux内核的Mellanox网卡驱动层：

设备移除超时：日志显示TEARDOWN_HCA操作超时，导致命令资源泄漏
健康检查异常：内核尝试读取设备寄存器时触发页错误(CR2: ffffae10a0c64230)
定时器处理异常：在__run_timers函数中出现了非法内存访问

这些问题表明在设备热移除过程中，驱动状态机可能没有正确处理设备资源的释放顺序，导致内核访问了已经无效的内存区域。

系统温度因素

深入分析发现，该测试场景还会引发显著的硬件温度变化：

测试执行期间CPU核心温度从约65°C飙升至80°C以上
部分核心出现短暂的热节流(Throttling)现象
Mellanox网卡传感器温度维持在44°C左右

虽然温度没有达到临界值，但这种显著的温度波动可能与硬件稳定性有关，可能加剧了内核驱动层面的问题。

内核版本影响

该问题在不同内核版本中表现有所不同：

在6.1.x内核中表现为mlx5_ib路径相关错误
在6.7.x内核中出现定时器处理和健康检查相关的崩溃
最新6.8.x内核中问题仍然存在

这表明问题不是特定内核版本的回归错误，而是与驱动架构设计相关的深层次问题。

解决方案

由于该问题涉及内核驱动层且难以在用户空间解决，SPDK社区采取了以下措施：

临时禁用相关测试：在问题修复前，暂时禁用会导致系统不稳定的设备热移除测试用例
向上游内核报告：向Linux内核社区提交详细的问题报告，推动Mellanox驱动修复
环境监控增强：在测试框架中增加对系统温度和节流状态的监控，帮助识别环境问题

经验总结

这个案例为存储系统开发提供了几点重要启示：

设备热操作复杂性：PCIe设备热插拔和RDMA连接管理涉及复杂的硬件/软件交互，需要特别谨慎处理
系统级影响：存储性能测试可能对系统整体稳定性产生意想不到的影响，包括电源和温度管理
内核协作必要性：用户空间存储框架的稳定性往往依赖于内核驱动的质量，需要与内核社区保持紧密合作
测试环境监控：全面的系统监控(温度、电源、节流状态等)对于诊断复杂问题至关重要

未来随着SPDK和内核社区的持续协作，这类底层稳定性问题有望得到根本解决，从而为NVMe over Fabrics提供更可靠的热管理能力。

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理