HAProxy监听器在高负载测试后冻结问题分析与修复
2025-06-07 04:31:27作者:温艾琴Wonderful
问题现象
在HAProxy的实际生产环境中,当配置了大量前端监听器(约300个)并同时启用SSL加密和TCP连接限制时,经过高负载压力测试后,部分前端监听器会进入"LIM"状态且无法自动恢复。具体表现为:
- 监听器停止接受新连接
- 通过管理接口查看显示状态为LIM
- 即使负载已经降低,监听器仍保持冻结状态
- 影响版本包括2.4.22至2.9.5等多个稳定版本
问题根源
经过深入分析,发现这是由HAProxy内部的两个连接限制机制之间的竞争条件导致的:
- 最大连接数限制(maxconn):限制单个前端可接受的总连接数
- 会话速率限制(session-rate):限制每秒新建连接数
当这两个限制同时启用时,特别是在SSL前端上,会出现以下问题链:
- 高负载触发速率限制,将监听器加入限制队列
- 同时连接数达到maxconn限制
- 当连接释放时,管理任务未被正确调度来重新检查限制条件
- 监听器永久停留在LIM状态,无法恢复
技术细节
问题的核心在于listener_release()函数中的处理逻辑不足。当连接释放时,函数会检查前端是否应该从限制队列中移除,但在以下情况下处理不完整:
- 前端仍有监听器在限制队列中
- 会话速率限制仍然处于激活状态
- 管理任务未被重新调度来评估当前限制条件
这种状态会导致系统无法自动恢复,即使负载已经降低到限制阈值以下。
解决方案
开发团队提供的修复方案通过增强listener_release()函数的逻辑来解决这个问题。主要改进包括:
- 当连接释放时,不仅检查是否可以立即解除限制
- 如果仍受速率限制,计算下次应该检查的时间
- 主动调度前端管理任务在适当时间重新评估限制状态
关键修复代码如下:
if (fe && !MT_LIST_ISEMPTY(&fe->listener_queue) &&
(!fe->fe_sps_lim || freq_ctr_remain(&fe->fe_sess_per_sec, fe->fe_sps_lim, 0) > 0))
dequeue_proxy_listeners(fe);
else {
unsigned int wait;
int expire = TICK_ETERNITY;
if (fe->fe_sps_lim &&
(wait = next_event_delay(&fe->fe_sess_per_sec,fe->fe_sps_lim, 0))) {
expire = tick_first(fe->task->expire, tick_add(now_ms, wait));
if (fe->task && tick_isset(expire))
task_schedule(fe->task, expire);
}
}
影响版本与修复状态
该问题影响HAProxy 2.0至2.9的多个版本。修复已合并到主分支,并计划向后移植到最近的稳定版本(2.4+)。对于2.2及更早版本,由于仅接收关键安全修复,不会包含此修复。
最佳实践建议
对于使用HAProxy的生产环境,特别是配置了多种连接限制的场景,建议:
- 及时升级到包含此修复的版本
- 监控监听器状态,特别是LIM状态的持续时间
- 对于关键业务前端,考虑分离SSL和非SSL监听器
- 压力测试时逐步增加限制阈值,观察系统行为
此修复显著提高了HAProxy在高负载场景下的稳定性,确保了连接限制机制的正确性和自恢复能力。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0231
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
JoyAI-VL-Interaction-Preview京东开源首个开源、视觉驱动的实时交互模型——它能实时监控视频流,并自主决定何时发言、保持沉默或委托任务。Jinja00
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0151
kornia🐍 空间人工智能的几何计算机视觉库Python02
PaddleParallel Distributed Deep Learning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)C++02
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
782
5.11 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
892
2.06 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
473
Ascend Extension for PyTorch
Python
764
972
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
710
1.43 K
deepin linux kernel
C
32
16
CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。
Jupyter Notebook
432
151
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.11 K
1.15 K
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.27 K
681
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
272