SPDK NVMe-oF RDMA目标端传输重试计数器耗尽导致段错误问题分析

2025-06-25 18:23:39作者：宣海椒Queenly

问题背景

在SPDK NVMe-oF RDMA目标端的实际部署环境中，我们观察到一个偶发的段错误问题。该问题通常发生在RDMA传输层出现"transport retry counter exceeded"错误时，导致目标端进程异常崩溃。通过分析核心转储文件，我们发现崩溃点位于nvmf_rdma_request_process函数中，具体是在处理RDMA_REQUEST_STATE_DATA_TRANSFER_TO_CONTROLLER_PENDING状态请求时发生的。

问题现象

当RDMA网络出现异常时，目标端会记录如下错误日志：

nvmf_rdma_log_wc_status: *ERROR*: Error on CQ 0x315ece0, (qp state 1 ibv_state 6) request 0x35184834322177, type DATA, status: (12): transport retry counter exceeded.

同时，RDMA网卡硬件计数器显示异常值：

req_cqe_error  5951
req_cqe_flush_error    1778

根本原因分析

经过深入代码分析，我们发现问题的根本原因在于RDMA请求状态管理的不一致性。具体表现为：

当请求处于RDMA_REQUEST_STATE_DATA_TRANSFER_TO_CONTROLLER_PENDING状态时，如果rdma_req->num_remaining_data_wr > 0，该请求会保留在rqpair->pending_rdma_read_queue队列中。
在异常情况下（如QP状态变为IBV_QPS_ERR），该请求可能被直接插入到其他队列（如pending_rdma_send_queue）中，这会破坏pending_rdma_read_queue队列的数据结构完整性。
当后续清理QP时遍历pending_rdma_read_queue队列时，就可能发生非法指针访问，导致段错误。

技术细节

在RDMA传输层，NVMe-oF协议需要处理多种数据传输场景，包括控制器到主机和主机到控制器的数据传输。当出现传输错误时，协议栈会尝试重试，但重试次数超过限制后（由transport retry counter控制），会触发错误处理流程。

问题特别出现在以下两种代码路径中：

正常处理路径（rdma.c:2128）
异常中止路径（rdma.c:5068）

两者都尝试从pending_rdma_read_queue队列中移除请求，但在异常情况下，请求可能已被释放或移至其他队列，导致操作空指针。

解决方案

修复方案的核心思想是确保在异常处理路径中正确处理队列操作。具体措施包括：

在将请求移动到其他队列前，先检查并确保其从原队列中正确移除
添加必要的状态检查，防止对已释放请求进行操作
确保队列操作是原子的，避免并发访问导致的数据不一致

修复后的代码在异常情况下能够正确处理请求状态转换，避免了段错误的发生。

验证结果

通过在测试环境中模拟QP错误状态，验证了修复方案的有效性：

在数据传输过程中强制将QP状态修改为IBV_QPS_ERR
观察目标端行为
确认目标端能够正确处理错误情况而不会崩溃

最佳实践建议

对于使用SPDK NVMe-oF RDMA目标端的用户，建议：

监控RDMA网卡的硬件计数器，特别是req_cqe_error和req_cqe_flush_error
合理设置传输重试参数，平衡可靠性和性能
及时更新到包含此修复的SPDK版本
在网络不稳定的环境中，考虑增加传输重试次数阈值

这个问题展示了在RDMA这种复杂网络协议栈中，状态管理的重要性。正确的错误处理流程对于系统稳定性至关重要，特别是在面对网络异常等边缘情况时。

spdk

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

SPDK NVMe-oF RDMA目标端传输重试计数器耗尽导致段错误问题分析

问题背景

问题现象

根本原因分析

技术细节

解决方案

验证结果

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

SPDK NVMe-oF RDMA目标端传输重试计数器耗尽导致段错误问题分析

问题背景

问题现象

根本原因分析

技术细节

解决方案

验证结果

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选