Unbound DNS服务器中subnet_msg_cache内存计算缺陷分析

2025-06-24 18:58:14作者：毕习沙Eudora

在DNS服务器Unbound的1.10.1至1.19.1版本中，当启用subnetcache模块时，存在一个关键的内存管理问题。该问题会导致实际内存消耗远超预期配置，可能引发服务器性能下降甚至内存耗尽的情况。本文将深入分析该问题的技术原理及修复方案。

问题背景

subnetcache是Unbound中用于存储带EDNS客户端子网信息(ECS)的DNS响应缓存模块。当启用该功能后，系统会为不同来源子网的查询维护独立的缓存条目。管理员发现，即便设置了msg-buf-size参数，内存使用仍会持续增长至超出预期值。

根本原因分析

经过技术团队深入排查，发现存在两个关键设计缺陷：

内存计算模型不准确
原实现直接复用了msg_cache的内存计算函数msgreply_sizefunc，但两者数据结构存在本质差异。msg_cache实际记录存储在rrset缓存中，而subnet_msg_cache需要自行管理完整的RRset数据。这导致系统低估了约30%-50%的实际内存占用。
LRU机制失效
当更新已有缓存条目时，即便未插入新条目，内存占用量仍会增加。但由于未触发slabhash的空间统计更新，LRU回收机制无法正确识别超额情况，导致缓存无法按预期回收。

技术解决方案

开发团队通过以下方式修复了这些问题：

精确内存计算
为每个RRset记录调用ub_rrset_sizefunc函数，准确计算包括密钥和数据结构在内的完整内存占用。关键代码段如下：

for (i = 0; i < elem->rrset_count; i++) {
    struct ub_packed_rrset_key *key = elem->rrsets[i];
    struct packed_rrset_data *data = key->entry.data;
    s += ub_rrset_sizefunc(key, data);
}

完善空间管理机制
新增lruhash_update_space_used函数，确保任何内存变动都能正确更新空间统计。该函数会：

原子化更新空间计数器
检查是否超过阈值
触发LRU回收流程
安全释放被回收条目

影响与建议

该问题主要影响：

使用EDNS客户端子网功能的场景
高并发查询环境
内存资源受限的部署

建议用户：

升级至包含修复的版本
监控实际内存使用情况
根据业务特点调整max-ecs-tree-size参数

技术启示

此案例揭示了缓存系统设计中几个关键要点：

不同缓存层需要独立的内存计算模型
所有可能改变内存占用的操作都应纳入统计
LRU机制的触发条件需要全面考虑
内存管理需要保持原子性操作

通过这次修复，Unbound的subnetcache模块实现了更精确的内存控制和更可靠的内存回收机制，为大规模部署提供了更好的稳定性保障。

unbound

Unbound is a validating, recursive, and caching DNS resolver.

项目地址：https://gitcode.com/gh_mirrors/un/unbound

登录后查看全文