SPDK项目中LSAN检测到vfio/nvmf模糊测试中的内存泄漏问题分析

2025-06-26 10:26:17作者：平淮齐Percy

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

问题背景

在SPDK存储性能开发套件的测试过程中，开发团队发现当启用LeakSanitizer(LSAN)进行内存泄漏检测时，在运行vfio和nvmf模糊测试(fuzzing test)时会出现内存泄漏的误报。这个问题表现为在长时间运行的模糊测试中，LSAN会间歇性地报告两处内存泄漏。

具体现象

LSAN报告的两处内存泄漏分别出现在以下位置：

nvmf_qpair_disconnect_ctx结构体泄漏：在spdk_nvmf_qpair_disconnect()函数中，为qpair_ctx分配的48字节内存被报告泄漏。这个结构体用于处理NVMe-oF队列对的异步断开操作。
控制器结构体泄漏：在nvmf_ctrlr_create()函数中，为控制器分配的4920字节内存被报告泄漏。这个结构体用于管理NVMe控制器的状态和信息。

深入分析

开发团队通过添加调试打印和延迟测试，对这个问题进行了深入分析：

异步操作的影响：NVMe-oF目标端的断开路径是异步执行的。当发起端完成测试迭代时，目标端可能还没有执行完延迟释放操作，导致LSAN在检查时误报泄漏。
延迟测试验证：团队尝试在释放操作前添加不同长度的延迟(从1ms到100ms)，发现：
- 增加延迟可以更频繁地复现问题
- 但无法完全消除误报
- 即使内存确实被释放后，LSAN仍可能报告泄漏
根本原因推测：
- 可能是LSAN在异步操作完成前进行检查导致误报
- 也可能是LSAN内部机制在某些情况下的bug
- 确定不是SPDK代码本身的内存管理问题

解决方案

经过多次验证和讨论，团队确定了以下解决方案：

局部抑制方案：仅在模糊测试中抑制这些特定的误报，而不是全局禁用LSAN检测。这样可以：
- 保持其他代码路径的内存泄漏检测
- 不影响模糊测试的覆盖率
- 最小化对测试性能的影响
技术权衡：考虑到添加延迟会影响测试吞吐量，且无法完全解决问题，决定采用抑制方案而非延迟方案。

经验总结

这个案例提供了几个重要的技术经验：

异步内存管理的挑战：在异步编程模型中，内存释放的时机难以精确控制，给内存检测工具带来挑战。
测试工具的限制：即使是成熟的工具如LSAN，在复杂场景下也可能出现误报，需要开发人员具备判断能力。
平衡方案的选择：在解决工具误报问题时，需要权衡解决方案的精确性和对系统性能的影响。

通过这个问题的分析和解决，SPDK团队增强了对内存管理工具行为的理解，为未来处理类似问题积累了宝贵经验。

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。