Async-profiler与jemalloc堆分析器死锁问题深度解析

2025-05-28 17:03:18作者：魏侃纯Zoe

问题现象

在使用async-profiler进行性能分析时，部分Java服务出现VM完全无响应的现象。具体表现为：

通过线程堆栈分析发现，问题源于jemalloc堆分析器与async-profiler之间的死锁竞争：

jemalloc堆分析机制：
- 使用libunwind进行调用栈回溯
- 在内存分配时获取全局锁进行采样记录
async-profiler加载过程：
- 通过dl_iterate_phdr遍历加载的共享库
- 需要分配内存来构建符号缓存
死锁形成路径：
- async-profiler加载时需要分配内存
- jemalloc在分配内存时需要获取堆分析锁
- 堆分析需要libunwind获取调用栈
- libunwind内部又需要获取全局锁
- 而此时async-profiler正持有该锁进行库遍历

这类问题本质上是递归锁竞争的典型表现，在以下场景中特别容易出现：

类似的冲突也常见于：

通过这个案例我们可以看到，在复杂的Java生产环境中，各种性能工具和底层组件的交互可能产生意想不到的副作用。理解各组件的工作原理和依赖关系，建立规范的性能分析流程，才能确保诊断工作的顺利开展。

登录后查看全文