OpenZFS中ZAP叶子节点创建时的内核恐慌问题分析

2025-05-21 06:29:17作者：邵娇湘

在OpenZFS文件系统的开发过程中，我们发现了一个涉及ZAP（ZFS属性处理器）叶子节点创建时触发内核恐慌（kernel panic）的严重问题。这个问题表现为在特定条件下，系统会触发VERIFY3断言失败，导致内核崩溃并输出相关调用栈信息。

问题现象 当系统尝试创建ZAP叶子节点时，会执行dmu_buf_set_user()操作来设置用户数据缓冲区。正常情况下，该操作应该返回NULL表示成功设置，但实际运行时却返回了非NULL值（一个有效的内存地址），导致VERIFY3断言失败。从调用栈可以看出，这个问题发生在文件创建或目录创建的操作路径上。

技术背景 ZAP是ZFS用于管理属性的核心组件，它采用了一种特殊的哈希表结构来高效存储键值对。ZAP的实现包含两种形式：微ZAP（mzap）和胖ZAP（fzap）。当属性数量较少时使用微ZAP，属性增多时会自动转换为胖ZAP结构。

在胖ZAP实现中，数据被组织成多个叶子节点（leaf），每个叶子节点通过dmu_buf（DMU缓冲区）进行管理。每个dmu_buf可以关联用户数据（通过dmu_buf_user_t结构），这在ZAP中用于存储叶子节点的内存表示。

问题根源 经过开发团队分析，这个问题与最近引入的ZAP收缩（zap_shrink）功能有关。当ZAP需要收缩时，会调用dmu_free_range()释放不再需要的叶子节点块。然而，释放后的块可能仍然保留在缓冲区缓存中，其关联的用户数据（zap_leaf_t结构）也未正确清理。

当下次分配相同的块ID用于新叶子节点时，系统会发现该块仍关联着旧的用户数据，导致dmu_buf_set_user()操作失败。这种情况特别容易发生在ZAP收缩后又立即扩展的场景中。

解决方案 开发团队提出了两种解决方案：

显式清理方案：在zap_shrink()中释放叶子节点时，显式调用dmu_buf_remove_user()清理用户数据，并同步执行zap_leaf_evict_sync()。但这种方法可能存在并发访问的风险。
重用叶子节点方案：修改zap_create_leaf()逻辑，在分配新叶子节点时检查是否已有用户数据关联。如果有，则重用现有的zap_leaf_t结构而不是创建新的。这种方法更安全，因为它保持了现有的引用计数机制。

影响与建议 这个问题主要影响使用最新开发版OpenZFS的系统，特别是那些频繁创建/删除大量文件或目录的工作负载。虽然不会导致池损坏，但会引发系统崩溃。

对于生产环境，建议：