OpenZFS项目中ARC内存泄漏问题的分析与修复

2025-05-21 15:13:48作者：伍霜盼Ellen

在OpenZFS存储系统中，ARC（自适应替换缓存）是其核心内存管理机制之一。近期在zfs-2.2.99版本中发现了一个重要的性能退化问题：在持续IO负载下，ARC会出现内存管理异常，最终导致系统性能急剧下降。

问题现象

当系统经历长时间IO负载时，运维人员可以观察到以下典型症状：

通过arcstat工具可以清晰看到这种异常模式：初始阶段ARC大小正常增长，但当达到某个临界点后，虽然ARC总容量仍在增加，但缓存命中率骤降，系统可用内存停滞在某个固定值附近。

经过深入排查，发现问题源于abd（ARC缓冲数据）层的统计管理缺陷。在最近的DirectIO相关修改中，开发人员意外移除了abd_free_linear_page()函数中对abd_update_scatter_stats()的调用。这个看似微小的改动导致了严重后果：

这种统计信息的丢失导致ARC内存管理子系统逐渐"失明"，无法准确掌握真实内存使用情况，最终引发性能退化。

这个问题对系统的影响是渐进式的：

特别是在小ARC配置环境下，这个问题会更快显现，因为错误统计的影响会被放大。

修复方案相对直接但有效：恢复abd_free_linear_page()函数中对scatter统计的更新。这确保了：

对于使用OpenZFS的系统管理员，建议：

这个案例再次证明了内存管理子系统中的统计准确性对系统整体健康的重要性，即使是看似微小的统计误差，经过长时间积累也可能导致严重的系统级问题。

登录后查看全文