Async-profiler中的符号解析与钩子安装竞态条件分析

2025-05-28 04:43:08作者：伍希望

背景概述

在Java性能分析工具Async-profiler的使用过程中，发现了一个可能导致程序崩溃的竞态条件问题。这个问题主要发生在分析器解析共享库符号和安装内存分配钩子时，特别是在动态库加载(dlopen)和卸载(dlclose)频繁发生的场景下。

问题本质

Async-profiler在进行本地内存分析(nativemem)时，需要完成两个关键操作：

解析已加载共享库的符号信息
在这些库中安装malloc/free等内存分配函数的钩子

问题根源在于这些操作不是原子性的，而目标进程的库加载状态可能在分析过程中发生变化。具体表现为三种竞态条件场景：

库状态不一致：分析器通过/proc/self/maps发现库时，库可能处于未完全加载状态
库地址失效：分析器解析完库信息后，库被卸载然后重新加载到不同地址
钩子安装失效：库被正确解析后，但在安装钩子前被卸载

技术细节分析

问题1：库地址失效

典型发生流程：

分析器收集到库libtest.so加载在地址0xaaaa00000000
目标进程卸载了libtest.so
目标进程重新加载libtest.so到新地址0xbbbb00000000
分析器仍尝试在旧地址0xaaaa00000000解析符号，导致段错误

解决方案：将内部使用的inode集合改为inode到基地址的映射，并在解析时通过dlinfo验证基地址是否仍然有效。

问题2：钩子安装时库已卸载

典型发生流程：

分析器附加到运行中的目标进程
开始解析当前加载的共享库
某个库(libtest.so)在解析完成后被卸载
分析器尝试为已卸载库安装钩子时崩溃

解决方案：在解析库符号的同时立即更新GOT(全局偏移表)条目，并在整个操作期间保持对目标库的活动引用。

解决方案实现

修复工作主要包含两个关键改进：

地址验证机制：在符号解析阶段增加对库基地址的实时验证，确保操作的库仍然存在于预期地址。
原子性操作优化：将符号解析和钩子安装合并为更原子性的操作，减少中间状态暴露给竞态条件的时间窗口。
特殊库处理：增加对动态链接器(ld)的特殊处理逻辑，类似于对主程序可执行文件的特殊处理方式。

影响与意义

该修复显著提高了Async-profiler在以下场景下的稳定性：

频繁动态加载/卸载库的应用程序
长时间运行的性能分析会话
高并发环境下的本地内存分析

对于Java生态中的性能分析工作，特别是那些依赖JNI和频繁加载本地库的应用，这一改进使得内存分析结果更加可靠，减少了分析过程中意外崩溃的可能性。

最佳实践建议

对于Async-profiler用户，在使用本地内存分析功能时：

尽量使用最新版本，包含这些稳定性修复
对于高度动态的库加载场景，考虑适当延长分析间隔
监控分析日志，关注任何关于库加载/卸载的警告信息
在分析配置中合理设置采样间隔，避免过高频率导致的分析器压力

这些改进使得Async-profiler成为Java和本地代码混合应用内存分析更加可靠的解决方案。

async-profiler

Sampling CPU and HEAP profiler for Java featuring AsyncGetCallTrace + perf_events

项目地址：https://gitcode.com/GitHub_Trending/as/async-profiler

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统