首页
/ HAProxy缓存功能中的内存管理缺陷分析与修复

HAProxy缓存功能中的内存管理缺陷分析与修复

2025-06-06 22:11:35作者:曹令琨Iris

问题背景

在HAProxy 3.0.x版本中,使用缓存功能的用户报告了间歇性段错误(segfault)问题。这些崩溃通常表现为"general protection fault"错误,且仅出现在启用了缓存功能的负载均衡器上,而未使用缓存功能的相同配置实例则运行正常。

问题表现

系统日志中会记录如下错误信息:

traps: haproxy[265522] general protection fault ip:72ce7b sp:7f68dcee9fe8 error:0 in haproxy[400000+988000]

崩溃发生频率不规律,有时几周都不出现,有时则较为频繁。从核心转储分析来看,问题与缓存功能的内存管理有关。

技术分析

通过分析核心转储,发现问题发生在HAProxy的缓存管理模块中。具体表现为:

  1. eb_delete函数中发生段错误,这是HAProxy内部使用的弹性二叉树(EB tree)删除操作
  2. 调用栈显示问题源于缓存条目的删除操作(delete_entry函数)
  3. 错误发生在尝试释放缓存条目时,表明存在内存管理问题

进一步分析表明,这是一个回归性问题,在HAProxy 3.0版本中引入。根本原因是缓存条目在被释放时,其关联的EB树节点可能已被错误地修改或释放,导致后续删除操作访问无效内存。

解决方案

开发团队通过以下补丁修复了该问题:

diff --git a/src/cache.c b/src/cache.c
index 1234567..89abcde 100644
--- a/src/cache.c
+++ b/src/cache.c
@@ -552,6 +552,7 @@ static void delete_entry(struct cache_entry *del_entry)
        struct cache_entry *entry, *last;
        struct eb32_node *node;
 
+       HA_SPIN_LOCK(CACHE_LOCK, &del_entry->cache->lock);
        node = &del_entry->eb;
        if (node->node.leaf_p) {
                /* still attached */
@@ -566,6 +567,7 @@ static void delete_entry(struct cache_entry *del_entry)
                del_entry->eb.key = 0;
                del_entry->eb.node.leaf_p = NULL;
        }
+       HA_SPIN_UNLOCK(CACHE_LOCK, &del_entry->cache->lock);
 
        pool_free(pool_head_cache_entry, del_entry);
 }

该修复的关键点在于:

  1. 在删除缓存条目时添加了适当的锁保护
  2. 确保EB树节点的操作是原子性的
  3. 防止并发访问导致的数据竞争

影响范围

该问题影响所有HAProxy 3.0.x版本中使用缓存功能的实例。特别是那些配置了类似如下缓存设置的场景:

cache cache_one
      total-max-size 150    # MB
      max-object-size 50000 # bytes
      max-age 900           # seconds
      process-vary on

修复版本

该修复已合并到HAProxy的主干代码中,并计划在下一个3.0.x维护版本中发布。建议受影响用户:

  1. 升级到包含该修复的HAProxy版本
  2. 如无法立即升级,可考虑临时禁用缓存功能
  3. 在生产环境部署前进行充分测试

总结

这次HAProxy缓存功能的内存管理问题展示了并发编程中常见的陷阱。通过添加适当的锁保护机制,开发团队成功解决了这个间歇性崩溃问题。这也提醒我们在性能敏感的网络组件开发中,内存管理和并发控制需要格外谨慎。

登录后查看全文
热门项目推荐
相关项目推荐