HAProxy监听器恢复时的死锁问题分析与修复

2025-06-07 23:25:43作者：翟江哲Frasier

HAProxy Load Balancer's development branch (mirror of git.haproxy.org)

项目地址：https://gitcode.com/gh_mirrors/ha/haproxy

问题背景

在HAProxy负载均衡器中，当管理员通过命令行将前端监听器的maxconn参数从0重新设置为更大的值时，系统会出现死锁情况。这个bug影响了从2.4到最新master分支的所有版本。

问题现象

管理员执行以下操作序列时会触发问题：

将前端监听器的最大连接数设置为0（暂停监听器）
向该前端发送请求
将最大连接数恢复为正常值（如10）

此时HAProxy工作线程会陷入死锁状态，最终导致进程崩溃。

技术分析

问题的根本原因在于锁获取的顺序冲突。具体来说：

在cli_parse_set_maxconn_frontend函数中，当修改maxconn值时，会调用dequeue_proxy_listeners函数
这个调用发生时已经持有了代理锁(proxy lock)
dequeue_proxy_listeners内部会调用resume_listener函数
在001328873c352e5e4b1df0dcc8facaf2fc1408aa这个提交中，resume_listener函数被修改为需要获取代理锁
这就形成了锁重入问题：已经持有锁的线程再次尝试获取同一把锁，导致死锁

解决方案

修复方案的核心思路是正确传递锁状态信息：

修改dequeue_proxy_listeners函数签名，增加参数来指示调用者是否已经持有代理锁
将这个锁状态信息一直传递到resume_listener函数
在resume_listener中根据锁状态决定是否需要获取锁

这种设计保持了线程安全性，同时避免了不必要的锁重入。修复后的代码路径能够正确处理以下情况：

从CLI命令调用路径（已持有锁）
从其他代码路径调用（未持有锁）

影响范围

该问题影响广泛，涉及多个重要版本：

2.4.x系列
2.6.x系列（包括Debian打包的2.6.12版本）
2.7.x系列
2.8.x系列
2.9.x系列
master分支

技术启示

这个问题给我们几个重要的技术启示：

锁状态传递：在多层函数调用中，锁状态信息需要显式传递，不能依赖隐式假设
API设计原则：修改底层函数行为时，需要考虑所有调用路径的上下文
死锁预防：在持有锁的情况下调用其他函数时，必须仔细分析这些函数是否也会尝试获取相同的锁

总结

HAProxy的这个死锁问题展示了在复杂系统中锁管理的挑战。通过正确传递锁状态信息，修复方案既解决了死锁问题，又保持了系统的线程安全性。这个案例也提醒开发者，在修改核心框架代码时需要全面考虑各种调用场景的影响。

HAProxy Load Balancer's development branch (mirror of git.haproxy.org)

项目地址：https://gitcode.com/gh_mirrors/ha/haproxy

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。