Apache Pegasus中ASAN模式下dsn_replica_dup_test的内存问题分析

2025-07-05 12:57:48作者：仰钰奇

在Apache Pegasus分布式存储系统的开发过程中，我们发现了一个在ASAN（AddressSanitizer）模式下运行dsn_replica_dup_test单元测试时出现的堆内存使用后释放（heap-use-after-free）问题。这个问题暴露了系统在复制（duplication）模块中处理突变（mutation）数据时的内存管理缺陷。

问题现象

当使用ASAN构建选项编译Pegasus并运行dsn_replica_dup_test测试时，测试会在mutation_batch_test.add_mutation_if_valid测试用例中崩溃。ASAN报告显示，测试尝试读取一块已经被释放的内存区域，导致heap-use-after-free错误。

具体表现为测试代码在尝试创建一个blob对象时，访问了已经被释放的内存区域0x6030010b2300。这块内存原本属于一个32字节的区域，在被释放后又被读取。

技术背景

在Pegasus中，mutation_batch是复制模块的核心组件之一，负责批量处理和验证突变数据。blob是系统内部用于高效处理二进制数据的轻量级封装类，它通过共享指针管理底层内存。

ASAN是一种内存错误检测工具，能够发现各种内存问题，包括使用已释放内存、内存泄漏、缓冲区溢出等。在开发过程中启用ASAN可以帮助发现潜在的内存安全问题。

问题根源分析

通过分析ASAN报告和代码，我们发现问题的根本原因在于：

mutation_batch在处理突变数据时，创建了一个包含blob对象的元组（tuple）
这些元组被存储在std::set集合中
在集合被销毁时，内部的blob对象也被销毁，释放了底层内存
但是测试代码随后又尝试访问这些已经释放的blob数据

这表明系统在blob生命周期管理上存在问题，特别是在集合操作和测试验证阶段没有正确处理数据的共享和拷贝。

解决方案

修复这个问题的关键在于确保在测试验证阶段，所有需要访问的数据都保持有效。具体措施包括：

修改测试代码，确保在验证阶段不依赖可能已被释放的内存
加强blob对象的生命周期管理，特别是在集合操作中的处理
确保测试数据在整个测试过程中保持有效

经验总结

这个案例给我们带来了几个重要的经验教训：

ASAN等内存检测工具在开发过程中非常重要，能够发现潜在的内存安全问题
在使用共享指针管理内存时，需要特别注意对象生命周期，特别是在集合操作中
单元测试的设计需要考虑数据有效性的时间范围，避免在验证阶段访问可能已释放的数据
对于像blob这样的核心数据结构，需要建立严格的使用规范和管理机制

通过解决这个问题，我们不仅修复了一个具体的内存错误，还提高了系统在复制模块的内存安全性，为后续开发奠定了更坚实的基础。

登录后查看全文

Apache Pegasus中ASAN模式下dsn_replica_dup_test的内存问题分析

问题现象

技术背景

问题根源分析

解决方案

经验总结

热门内容推荐

最新内容推荐

项目优选

Apache Pegasus中ASAN模式下dsn_replica_dup_test的内存问题分析

问题现象

技术背景

问题根源分析

解决方案

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选