SPDK项目中NVMe over TCP连接超时导致CPU核心阻塞问题分析

2025-06-25 16:26:42作者：裘旻烁

问题背景

在NVMe over TCP环境中，当NVMf目标节点重启时，Vhost上的所有NVMe控制器都会出现保活超时并断开连接。这一现象不仅影响目标节点的正常NVMe块设备，还会导致应用程序线程阻塞，进而影响整个系统的I/O性能。

问题现象

系统运行过程中出现以下典型症状：

应用程序线程(app_thread)进入阻塞状态，无法正常发送保活信号
阻塞时间呈现8秒、16秒等规律性间隔
系统日志中出现POSIX套接字连接超时错误
多个NVMe控制器同时进入重置状态时，正常控制器的I/O操作也会挂起

技术分析

根本原因

问题的核心在于TCP连接超时机制与NVMe控制器重置过程的交互：

每个NVMe控制器包含一个管理队列对(admin qpair)和一个I/O队列对(io qpair)，意味着每个控制器需要建立两个TCP连接
默认的transport_ack_timeout参数值为0，这会使用Linux默认的120秒TCP超时设置
当多个控制器同时尝试重置时，同步的connect()操作会阻塞应用线程
阻塞期间无法处理其他控制器的保活请求，导致级联故障

参数影响

transport_ack_timeout参数的计算方式为： opts.ack_timeout = 1ULL << ctrlr->opts.transport_ack_timeout

默认值为0，实际效果是采用Linux默认的120秒TCP超时。当设置为12时，超时时间为4096毫秒(4秒)。

解决方案探讨

短期缓解方案

调整超时参数：降低transport_ack_timeout值可以缩短阻塞时间，但设置过低可能影响正常通信质量
增加Ping探测：在正式连接前增加快速Ping检查，避免直接进入长时间连接等待

长期优化方案

异步连接实现：将connect操作改为异步模式，避免阻塞应用线程
- 已有相关讨论但尚未实现
- 需要较大代码结构调整
- 可参考历史补丁作为基础进行重构
连接池优化：实现连接复用和管理机制，减少重复连接开销

生产环境建议

对于急需解决的生产环境问题，推荐采用"增加Ping探测"方案，因为：

实现相对简单，风险可控
不需要大规模重构现有代码
能够有效避免直接连接导致的长时间阻塞
可配置灵活的探测超时时间

同时建议监控系统日志中的连接错误，评估是否需要进一步优化TCP超时参数。

总结

NVMe over TCP环境中的连接管理是影响系统稳定性的关键因素。当前同步连接模型在多控制器场景下存在明显缺陷，长期来看需要向异步连接架构演进。在生产环境中，通过合理的超时设置和预检查机制可以有效缓解问题，但最终解决方案仍需依赖底层通信模型的优化改进。

spdk

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。