Async-profiler解析并发加载Linux动态库的问题分析与修复

2025-05-28 23:05:08作者：裘旻烁

在Linux系统中，当多个线程同时加载不同的共享库时，async-profiler可能会遇到解析错误的问题。这个问题最初在GraalVM环境下测试nativemem功能时被发现，表现为解析重定位条目时获取到未调整的偏移量而非重定位后的地址。

问题现象

当async-profiler以nativemem选项启动时，JVM可能会发生崩溃。具体表现为在parseDynamicSection()函数中解析重定位条目时，获取到的地址值不正确。

问题根源分析

经过深入分析，发现问题源于Linux动态链接器(dlopen)和async-profiler解析逻辑之间的竞争条件。具体场景如下：

线程1开始加载库A
async-profiler的dlopen_hook被触发
库A加载完成
线程2开始加载库B
库B被映射到内存但尚未完成重定位
线程1调用Profiler::updateSymbols
线程1在内存映射中发现库B并开始解析
线程1调用MallocTracer::installHooks更新库B的GOT中的malloc条目
线程2完成库B的链接并再次更新GOT
导致库B后续调用malloc时目标地址无效，引发JVM崩溃

关键问题在于dlopen和dl_iterate_phdr使用了不同的锁机制：dl_load_lock和dl_load_write_lock。这种设计虽然能防止并发卸载，但无法防止并发加载导致的竞争条件。

解决方案

修复方案的核心思想是：只解析已知完全加载的库。具体实现中，通过dl_iterate_phdr获取已完全加载的库列表，避免解析那些正在加载过程中的库。

这种方法的优势在于：

完全避免了与动态链接器加载过程的竞争
保持了原有的功能完整性
不需要引入额外的同步机制

技术细节

在Linux系统中，动态库的加载过程分为几个阶段：

内存映射：将库文件映射到进程地址空间
符号解析：处理库的依赖关系
重定位：调整地址引用
初始化：执行库的初始化代码

async-profiler之前的实现可能在阶段1完成后就开始解析库内容，而此时重定位尚未完成，导致获取到错误的地址信息。修复后的实现确保只在阶段4完成后才进行解析。

影响范围

该问题主要影响以下环境：

Linux系统（特别是使用glibc）
多线程环境下并发加载动态库
使用async-profiler的native内存分析功能

特别值得注意的是，GraalVM由于其JIT编译器的特性，会频繁加载和卸载动态库，因此更容易触发这个问题。

总结

async-profiler对Linux动态库并发加载场景的解析问题，展示了在性能分析工具开发中需要考虑的各种边界条件。通过深入理解Linux动态链接器的工作机制，开发团队找到了既保持功能完整又避免竞争条件的解决方案。这个案例也提醒我们，在多线程环境下处理动态库时需要格外小心，特别是在性能分析工具这类需要深入系统内部工作的软件中。

async-profiler

Sampling CPU and HEAP profiler for Java featuring AsyncGetCallTrace + perf_events

项目地址：https://gitcode.com/GitHub_Trending/as/async-profiler

登录后查看全文