Memray内存分析工具在PyTorch Profiler内存泄漏检测中的实践

2025-05-15 01:26:01作者：裴麒琰

在深度学习模型开发过程中，内存泄漏是一个常见但棘手的问题。本文将通过一个实际案例，探讨如何使用Memray工具来诊断PyTorch Profiler导致的内存泄漏问题，并深入分析其中的技术细节。

问题现象

开发者在训练BERT模型时发现系统内存持续增长，但Memray的summary报告显示堆内存使用量保持稳定。通过htop和memory_profiler观察到的内存泄漏现象与Memray的报告存在差异。

技术分析

内存分配机制解析

PyTorch Profiler底层使用posix_memalign进行内存分配，这种分配方式会通过brk系统调用来扩展堆空间。关键发现是：

虽然内存会被释放，但brk指针不会回退
这导致堆空间持续增长，形成内存碎片
实际物理内存(RSS)持续增加，而Memray报告的堆内存使用量保持稳定

Memray工具能力验证

通过添加--native参数运行Memray后，工具成功捕获了以下关键信息：

火焰图清晰显示了torch::autograd::profiler::disableProfiler的调用栈
该Profiler占用了30%的最大内存分配量
进一步分析发现Profiler进行了99%的总分配次数

诊断技巧

使用native模式：必须添加--native参数才能捕获C++层的分配情况
多维度分析：
- 火焰图查看分配路径
- summary命令按分配次数排序
- 结合mallinfo2获取碎片信息
系统级监控：配合strace跟踪brk调用

解决方案

移除PyTorch Profiler相关代码
使用Memray的修改版本来可视化内存碎片情况
考虑替代的内存分析工具组合使用

经验总结

理解工具限制：Memray主要跟踪堆内存而非RSS
完整工具链：需要配合系统级工具进行综合分析
分配模式分析：大量小分配可能比少量大分配更危险

这个案例展示了深度学习开发中典型的内存问题诊断流程，也体现了Memray工具在实际应用中的价值和局限。开发者需要根据具体情况选择合适的工具组合，并深入理解底层内存管理机制。

memray

The endgame Python memory profiler

项目地址：https://gitcode.com/gh_mirrors/me/memray

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.22 K

669