解决Apache BRPC中Connection overcrowded问题的技术方案

2025-05-13 12:07:16作者：咎岭娴Homer

问题背景

在使用Apache BRPC框架进行RPC通信时，当数据包变大或网络负载较高时，开发者可能会遇到"Connection to x.x.x.x:12345 is overcrowded"的错误日志。这个问题通常发生在网络连接无法及时处理待发送数据时，导致数据积压。

Connection overcrowded错误实际上是BRPC框架的一种自我保护机制。当待发送数据量超过框架预设的阈值时，BRPC会主动拒绝新的请求，防止内存无限增长和系统过载。这种机制类似于TCP的流量控制，目的是保护系统稳定性。

最直接的解决方法是增大socket_max_unwritten_bytes参数值，这个参数控制着单个连接上允许积压的未写入数据量上限。通过增加这个值，可以允许更多的数据在连接上积压。

// 在代码中设置全局参数
brpc::FLAGS_socket_max_unwritten_bytes = 8 * 1024 * 1024;  // 8MB

当简单的参数调整无法解决问题时，可以考虑使用框架提供的忽略拥塞机制：

brpc::Controller cntl;
cntl.ignore_eovercrowded();  // 忽略拥塞错误
stub.SomeMethod(&cntl, &request, &response, nullptr);

brpc::ServerOptions options;
options.ignore_eovercrowded = true;  // 服务端全局忽略拥塞
server.Start(..., &options);

参数调整优先原则：首先尝试调整socket_max_unwritten_bytes参数，这是最安全的解决方案。
忽略拥塞的风险：
- 内存增长风险：当消费速度持续低于生产速度时，内存使用会不断增加
- 系统稳定性风险：可能掩盖真正的性能瓶颈
- 仅适用于可以容忍一定程度延迟的场景
混合使用策略：对于高低峰明显的业务场景，可以在高峰期启用忽略选项，低峰期关闭。
监控机制：使用忽略选项时，必须建立完善的内存监控和告警机制。