HAProxy缓存功能中的内存管理缺陷分析与修复

2025-06-06 08:09:08作者：曹令琨Iris

问题背景

在HAProxy 3.0.x版本中，使用缓存功能的用户报告了间歇性段错误(segfault)问题。这些崩溃通常表现为"general protection fault"错误，且仅出现在启用了缓存功能的负载均衡器上，而未使用缓存功能的相同配置实例则运行正常。

问题表现

系统日志中会记录如下错误信息：

traps: haproxy[265522] general protection fault ip:72ce7b sp:7f68dcee9fe8 error:0 in haproxy[400000+988000]

崩溃发生频率不规律，有时几周都不出现，有时则较为频繁。从核心转储分析来看，问题与缓存功能的内存管理有关。

技术分析

通过分析核心转储，发现问题发生在HAProxy的缓存管理模块中。具体表现为：

在eb_delete函数中发生段错误，这是HAProxy内部使用的弹性二叉树(EB tree)删除操作
调用栈显示问题源于缓存条目的删除操作(delete_entry函数)
错误发生在尝试释放缓存条目时，表明存在内存管理问题

进一步分析表明，这是一个回归性问题，在HAProxy 3.0版本中引入。根本原因是缓存条目在被释放时，其关联的EB树节点可能已被错误地修改或释放，导致后续删除操作访问无效内存。

解决方案

开发团队通过以下补丁修复了该问题：

diff --git a/src/cache.c b/src/cache.c
index 1234567..89abcde 100644
--- a/src/cache.c
+++ b/src/cache.c
@@ -552,6 +552,7 @@ static void delete_entry(struct cache_entry *del_entry)
        struct cache_entry *entry, *last;
        struct eb32_node *node;
 
+       HA_SPIN_LOCK(CACHE_LOCK, &del_entry->cache->lock);
        node = &del_entry->eb;
        if (node->node.leaf_p) {
                /* still attached */
@@ -566,6 +567,7 @@ static void delete_entry(struct cache_entry *del_entry)
                del_entry->eb.key = 0;
                del_entry->eb.node.leaf_p = NULL;
        }
+       HA_SPIN_UNLOCK(CACHE_LOCK, &del_entry->cache->lock);
 
        pool_free(pool_head_cache_entry, del_entry);
 }

该修复的关键点在于：

在删除缓存条目时添加了适当的锁保护
确保EB树节点的操作是原子性的
防止并发访问导致的数据竞争

影响范围

该问题影响所有HAProxy 3.0.x版本中使用缓存功能的实例。特别是那些配置了类似如下缓存设置的场景：

cache cache_one
      total-max-size 150    # MB
      max-object-size 50000 # bytes
      max-age 900           # seconds
      process-vary on

修复版本

该修复已合并到HAProxy的主干代码中，并计划在下一个3.0.x维护版本中发布。建议受影响用户：

升级到包含该修复的HAProxy版本
如无法立即升级，可考虑临时禁用缓存功能
在生产环境部署前进行充分测试

总结

这次HAProxy缓存功能的内存管理问题展示了并发编程中常见的陷阱。通过添加适当的锁保护机制，开发团队成功解决了这个间歇性崩溃问题。这也提醒我们在性能敏感的网络组件开发中，内存管理和并发控制需要格外谨慎。

haproxy

HAProxy Load Balancer's development branch (mirror of git.haproxy.org)

项目地址：https://gitcode.com/gh_mirrors/ha/haproxy

登录后查看全文