SPDK vhost_blk热插拔场景下的崩溃问题分析

2025-06-25 22:11:21作者：房伟宁

问题背景

在SPDK存储性能开发套件的vhost模块测试中，发现了一个与块设备热插拔相关的严重问题。该问题主要出现在执行blk_hotremove测试用例时，当vhost服务处理虚拟机重启操作时会发生崩溃，导致整个系统状态异常。

问题现象

测试场景中，首先创建了多个NVMe和malloc块设备，并通过split操作进行了分区。然后启动了两个虚拟机，每个虚拟机挂载了两个vhost_blk设备。测试过程中，当热移除NVMe控制器并重新添加后，在虚拟机重启阶段vhost服务会出现以下两种异常情况：

常规构建下的段错误：vhost进程直接崩溃，产生段错误核心转储
ASAN构建下的堆使用后释放错误：检测到对已释放内存区域的访问

技术分析

崩溃原因

通过分析核心转储和ASAN报告，发现问题出在vhost_blk模块的队列处理逻辑中。具体表现为：

当热移除操作完成后，相关的会话结构体(session)被释放
但在虚拟机重启过程中，vhost仍尝试访问这些已被释放的结构体
这导致了对无效内存的访问，最终引发段错误

根本原因

深入分析发现，问题的根源在于vhost_blk模块对会话生命周期的管理存在缺陷。在热插拔场景下：

设备移除时，会话被标记为需要销毁
但相关的轮询组(poll group)和队列(vq)资源没有完全清理干净
当虚拟机尝试重新连接时，vhost仍会尝试使用这些残留的资源

对虚拟机的影响

当vhost服务崩溃后，虚拟机的状态会变得异常：

虚拟块设备仍然可见但无法进行任何I/O操作
系统服务(如udev、lvm等)会陷入内核无法继续执行
即使尝试通过sysrq触发重启也会被阻塞
QEMU无法清理已断开连接的字符设备

解决方案

经过排查，发现问题与近期的一个提交(1c05f3fb0a)相关。该提交修改了vhost_blk模块的资源管理逻辑，但在热插拔场景下引入了不稳定性。解决方案是回滚这个变更，恢复之前的稳定实现。

经验总结

这个案例揭示了几个重要的技术要点：

资源生命周期管理：在异步事件处理系统中，必须严格管理资源的创建和销毁顺序
热插拔场景的特殊性：热插拔操作会触发复杂的设备状态转换，需要特别谨慎处理
故障隔离：vhost服务的崩溃不应导致虚拟机完全不可用，需要改进错误恢复机制

后续工作

虽然回滚解决了vhost崩溃问题，但仍需进一步研究虚拟机状态异常的根本原因。这涉及到：

QEMU与vhost-user协议的交互
内核virtio驱动对后端服务丢失的处理
系统服务对设备突然消失的容错能力

这些问题需要跨组件协作解决，以确保整个系统的健壮性。

spdk

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

SPDK vhost_blk热插拔场景下的崩溃问题分析

问题背景

问题现象

技术分析

崩溃原因

根本原因

对虚拟机的影响

解决方案

经验总结

后续工作

热门内容推荐

最新内容推荐

项目优选

SPDK vhost_blk热插拔场景下的崩溃问题分析

问题背景

问题现象

技术分析

崩溃原因

根本原因

对虚拟机的影响

解决方案

经验总结

后续工作

相关内容推荐

热门内容推荐

最新内容推荐

项目优选