Memray项目中的原生追踪功能卡顿问题分析

2025-05-15 08:04:20作者：薛曦旖Francesca

Memray作为Python内存分析工具的最新版本1.13.0中，用户报告了一个严重问题：当使用--native参数生成追踪文件后，执行memray flamegraph命令会出现无限卡顿现象。本文将深入分析这一问题的技术背景和影响范围。

问题现象

在Linux系统上，当用户执行以下操作序列时：

使用memray run --native命令生成内存追踪文件
尝试使用memray flamegraph命令处理该文件

程序会进入无限等待状态，无法正常生成火焰图。值得注意的是，这个问题在1.12.0版本中并不存在，表明这是新引入的回归问题。

技术背景

Memray的--native参数启用了对原生代码(非Python代码)的追踪能力，这依赖于底层系统库和调试符号的支持。从堆栈跟踪可以看出，问题发生在符号解析阶段，具体是在get_symbolic_support()函数调用链中。

根本原因分析

通过PyStack工具获取的调用堆栈显示，程序卡在了libbacktrace库处理ELF文件格式的过程中。更具体地说，是在尝试通过debuginfod服务获取调试信息时，curl的多线程处理出现了阻塞：

主线程在等待poll()系统调用返回
辅助线程卡在pthread_mutex_lock上

这表明在新版本中，符号解析器可能错误地尝试通过网络服务获取调试信息，而未能正确处理本地符号表。

影响范围

该问题影响：

Memray 1.13.0版本
Linux系统(特别是使用较新libc和GCC版本的环境)
任何使用--native参数生成的追踪文件

解决方案

项目维护者已经确认将在1.13.1版本中修复此问题，并考虑将1.13.0版本从PyPI中撤回(yank)。对于遇到此问题的用户，建议：

降级到1.12.0版本继续工作
等待1.13.1修复版本发布
暂时避免使用--native参数

技术启示

这个问题提醒我们，在内存分析工具中处理原生代码时需要特别注意：

符号解析的可靠性对工具稳定性至关重要
网络依赖(如debuginfod服务)可能引入不确定因素
多线程环境下的锁竞争需要仔细设计

对于Python性能分析工具开发者而言，这是一个值得研究的案例，展示了底层系统库交互可能带来的复杂性。

memray

The endgame Python memory profiler

项目地址：https://gitcode.com/gh_mirrors/me/memray

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781