HAProxy 3.0.4 队列死锁问题分析与解决方案

2025-06-07 22:15:54作者：昌雅子Ethen

在 HAProxy 3.0.4 版本中，用户报告了一个严重的稳定性问题：在高负载情况下，HAProxy 会出现所有线程卡死的情况（stuck=1），最终导致服务崩溃。这个问题特别容易在流量突增时触发，例如来自腾讯云的爬虫流量。

问题现象

用户观察到 HAProxy 进程会突然停止响应，检查崩溃日志发现所有线程都处于 stuck=1 状态。这种情况通常发生在：

后端服务器设置了较低的 maxconn 值
启用了基于 cookie 的会话保持（stickiness）
遇到突发流量时

技术分析

经过 HAProxy 核心开发团队的深入调查，发现问题出在服务器的队列处理机制中。具体来说，这是一个复杂的竞态条件问题：

当服务器达到 maxconn 限制时，新连接会被放入队列等待
当现有连接关闭时，会触发 process_srv_queue() 尝试从队列中取出等待的连接
在 3.0.4 版本中引入的队列处理优化（commit 68492650d）可能导致死锁情况

问题的本质在于队列锁获取和处理流程中的竞争条件。具体表现为：

一个线程持有队列锁进行 pendconn_add 操作
其他多个线程在 pendconn_must_try_again 中等待获取锁
由于特定的时序条件，可能导致所有线程都无法继续执行

解决方案

开发团队提出了一个修复方案，主要思路是：

在队列结构中增加一个标志位，用于检测服务器是否处于"已分配但未处理"状态
修改队列处理逻辑，避免在特定条件下出现无限循环

修复补丁的核心变更包括：

在 struct server 中添加 srv_flag_draining 标志
修改 process_srv_queue() 和 pendconn_must_try_again() 的逻辑
确保在各种情况下都能正确释放锁并继续处理

用户验证

在实际生产环境中，用户验证了修复补丁的效果：

在约15个 HAProxy 实例上部署了修复版本
特别配置了低 maxconn 和会话保持以增加队列压力
经过一段时间观察，修复版本运行稳定，未再出现卡死情况

最佳实践建议

基于此问题的经验，建议 HAProxy 用户：

在升级到 3.0.4 版本时应用此修复补丁
合理设置后端服务器的 maxconn 参数
谨慎使用会话保持功能，特别是在高负载场景下
监控队列长度指标，及时发现潜在问题

这个问题展示了即使在成熟的开源项目中，复杂的并发控制逻辑也可能引入难以预见的边界条件问题。HAProxy 开发团队对此问题的快速响应和修复体现了项目对稳定性的高度重视。

haproxy

HAProxy Load Balancer's development branch (mirror of git.haproxy.org)

项目地址：https://gitcode.com/gh_mirrors/ha/haproxy

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

186

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

759