Apache BRPC项目中RDMA连接Hello Message交互失败问题分析

2025-05-13 01:45:59作者：范靓好Udolf

问题现象

在Apache BRPC项目中使用RDMA协议进行通信时，当配置参数event_dispatcher_num超过一定数量后，服务端会出现连接建立失败的问题。具体表现为服务端日志中记录"Fail to read Hello Message from client"错误，并提示"Got EOF"。

典型错误日志如下：

W0417 03:25:46.823136 102786 4294968066 src/brpc/rdma/rdma_endpoint.cpp:571] Fail to read Hello Message from client:brpc::Socket{id=93 fd=1055 addr=10.1.104.30:53044:8002} (0x7f017c01cec0) 10.1.104.30:53044: Got EOF

环境配置

操作系统：Ubuntu 22.04
编译器：GCC 11
BRPC版本：12.1
Protobuf版本：3.9

问题复现

该问题可以通过BRPC示例程序rdma_performance复现，具体表现为：

当客户端和服务端设置相同的event_dispatcher_num参数
该参数值超过特定阈值（在测试环境中为12）
服务端开始报错，无法完成RDMA连接的Hello Message握手过程

深入分析

经过进一步测试和分析，发现该问题与BRPC的线程资源配置有直接关系：

线程资源分配原则：在BRPC中，event_dispatcher_num（事件分发线程数）和rdma_poller（RDMA轮询线程数）的总和不能超过brpc_worker_num（工作线程数）。这是因为：
- 事件分发线程和RDMA轮询线程都需要占用工作线程资源
- 如果这些线程占用了所有工作线程，就没有剩余线程来处理实际请求
资源竞争导致的问题：当event_dispatcher_num或rdma_poller的数量大于brpc_worker_num时：
- 系统线程资源被完全占用
- 没有可用线程处理RDMA连接的Hello Message握手过程
- 导致连接建立失败，服务端收到EOF错误
简化测试验证：即使在event_dispatcher_num设置为1的简单情况下，该问题仍然可能复现，这表明问题核心在于线程资源分配比例，而非单纯的事件分发线程数量。

解决方案

针对这一问题，建议采取以下解决方案：

合理配置线程资源：确保满足以下条件：
```
event_dispatcher_num + rdma_poller ≤ brpc_worker_num
```
并保留一定数量的工作线程用于实际请求处理。
性能调优建议：
- 根据实际负载情况动态调整各线程池大小
- 监控系统线程使用情况，避免资源耗尽
- 在高并发场景下适当增加brpc_worker_num总量
连接建立优化：
- 检查RDMA连接建立过程中的超时设置
- 确保Hello Message交换过程的可靠性
- 增加连接失败的重试机制

总结

BRPC项目中RDMA协议的Hello Message交互失败问题，本质上是线程资源分配不当导致的连接建立失败。通过合理配置各线程池大小，确保有足够的工作线程处理实际请求，可以有效解决这一问题。这提醒我们在使用高性能RPC框架时，不仅要关注功能实现，还需要深入理解其内部资源管理机制，才能发挥最佳性能。

brpc

brpc是百度开发的一套高性能RPC框架，特点是支持多种协议、多语言、高并发等。适用于需要高性能RPC服务的场景。

项目地址：https://gitcode.com/GitHub_Trending/brpc/brpc

登录后查看全文