SPDK项目中内存泄漏问题的分析与解决

2025-06-26 13:12:20作者：齐冠琰

问题背景

在SPDK项目的持续集成测试中，发现了一个与内存泄漏相关的间歇性故障。该问题主要出现在accel_assign_opcode测试用例执行过程中，当等待spdk_tgt进程结束时，系统检测到了内存泄漏情况。

问题现象

测试日志显示，在终止spdk_tgt进程并等待其结束时，系统报告了以下关键错误信息：

检测到多个内存泄漏情况，总计约10.9KB内存未被释放
泄漏主要来自两个地方：
- 32个对象共9984字节的间接泄漏，源自PCI设备扫描函数pci_scan_one
- 32个对象共977字节的间接泄漏，源自内存分配函数vasprintf和asprintf

技术分析

泄漏源头分析

通过分析调用栈和测试日志，可以确定内存泄漏主要发生在DPDK的PCI设备扫描过程中。具体来说：

pci_scan_one函数在扫描PCI设备时分配了内存但未正确释放
字符串格式化函数vasprintf和asprintf在设备信息处理过程中也存在内存泄漏

版本相关性

进一步调查发现：

该问题在SPDK master分支与DPDK 22.11版本组合时100%复现
使用更新的DPDK 23.11版本时问题消失
问题与新增的accel_scan_dsa_modules测试用例有关，因为它使spdk_tgt也开始使用DSA设备

历史背景

实际上，类似的PCI扫描内存泄漏问题在DPDK早期版本中就存在过。社区曾经为此专门打过补丁修复。虽然DPDK官方后来修复了这个问题，但在特定版本组合下问题仍然会重现。

解决方案

经过深入分析，确定了以下解决方案：

升级到DPDK 22.11.3或更新版本可以彻底解决此问题
该版本包含了PCI扫描相关内存管理的完整修复
需要同步更新CI测试环境以使用修复后的DPDK版本

技术启示

这个案例给我们几个重要的技术启示：

开源组件间的版本兼容性需要特别关注
内存泄漏问题可能在特定功能组合下才会显现
持续集成测试对发现这类隐蔽问题至关重要
历史问题可能在特定条件下复现，需要建立完善的问题追踪机制

后续改进

为了避免类似问题，建议：

建立更严格的版本依赖管理机制
对关键内存操作增加更详细的日志记录
在CI中增加内存泄漏的专项检测
定期更新依赖组件的版本

通过这次问题的分析和解决，SPDK项目在内存管理和版本兼容性方面又积累了宝贵的经验。

spdk

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781

SPDK项目中内存泄漏问题的分析与解决

问题背景

问题现象

技术分析

泄漏源头分析

版本相关性

历史背景

解决方案

技术启示

后续改进

热门内容推荐

最新内容推荐

项目优选

SPDK项目中内存泄漏问题的分析与解决

问题背景

问题现象

技术分析

泄漏源头分析

版本相关性

历史背景

解决方案

技术启示

后续改进

相关内容推荐

热门内容推荐

最新内容推荐

项目优选