HAProxy 3.0 DNS服务模板TCP健康检查问题分析

2025-06-07 14:50:10作者：段琳惟

在HAProxy 3.0开发版本中发现了一个与DNS服务模板和TCP健康检查相关的重要问题。这个问题会影响使用DNS动态发现(A记录)结合TCP健康检查的场景，当DNS记录消失后又重新出现时，健康检查会失败，导致服务不可用。

问题现象

当配置了基于DNS的服务模板，并且使用TCP健康检查时，如果某个DNS条目暂时消失后又重新出现，HAProxy的健康检查会报告"L4连接拒绝"错误。尽管服务器实际上是可达的，但HAProxy会错误地将对应服务器标记为下线状态。

通过抓包分析可以观察到，在正常情况下健康检查会向配置的端口(如8000)发送TCP SYN包。但在DNS记录重新出现后，健康检查会错误地向端口0发送连接请求，这显然会导致连接被拒绝。

技术背景

HAProxy支持通过DNS动态发现后端服务器，这是通过server-template配置实现的。当结合TCP健康检查时，HAProxy会定期向服务器的指定端口发起TCP连接来验证其可用性。

在HAProxy 3.0-dev1版本中，引入了一个重要的修改(64c9c8ef39)，目的是修复DNS解析相关的竞态条件问题。这个修改改变了服务器地址和端口的重置方式，使用新的server_set_inetaddr()函数来统一处理地址更新。

问题根源

经过深入分析，发现问题出在地址重置的逻辑上。当DNS记录消失时，HAProxy会清除服务器的地址信息，但在3.0-dev1的修改中，错误地将端口信息也一并清除了。对于A/AAAA记录，端口信息应该来自配置文件而不是DNS记录，因此不应该在DNS解析失败时清除端口。

具体来说，在以下情况下会出现问题：

初始状态下，服务器地址和端口都正确设置
DNS记录消失，HAProxy清除地址和端口
DNS记录重新出现，HAProxy重新设置地址，但端口保持为0
健康检查尝试连接端口0，导致失败

解决方案

修复方案的核心思想是：对于A/AAAA记录，在DNS解析失败时只清除地址信息而保留端口信息。只有在处理SRV记录超时时才需要同时清除地址和端口。

具体修改包括：

在resolv_srvrq_cleanup_srv()中保持同时清除地址和端口的行为(SRV记录需要)
在其他DNS回调函数中修改为只清除地址而保留端口
使用server_get_inetaddr()获取当前地址信息，仅清除地址部分

影响范围

这个问题从HAProxy 3.0-dev1版本开始存在，影响所有后续开发版本，直到修复为止。2.9及更早版本不受影响。

最佳实践建议

对于生产环境用户，建议：

如果使用DNS服务模板和TCP健康检查，暂时避免使用3.0-dev1到dev12版本
等待包含修复的正式版本发布后再升级
测试环境中可以验证修复后的版本是否解决了问题
监控HAProxy日志中是否有"Connection refused"错误，特别是端口为0的情况

这个问题提醒我们，在复杂的网络代理场景中，地址管理和健康检查机制的交互需要特别小心，任何改动都可能产生意想不到的副作用。

haproxy

HAProxy Load Balancer's development branch (mirror of git.haproxy.org)

项目地址：https://gitcode.com/gh_mirrors/ha/haproxy

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理