async-profiler内核符号不可用时用户空间跟踪丢失问题分析

2025-05-28 10:13:26作者：卓炯娓

问题背景

在使用async-profiler进行性能分析时，当跟踪路径进入内核空间后返回用户空间时，如果系统内核符号不可用，会导致整个调用链（包括用户空间部分）都无法显示。这种情况会给开发者造成性能热点在其他地方的错觉，严重影响性能分析的准确性。

问题表现

典型的调用链可能如下所示：

[13] do_syscall_64_[k]
[14] entry_SYSCALL_64_after_hwframe_[k]
[15] send
[16] io.netty.channel.unix.Socket.sendAddress

当内核符号不可用时（通常由于系统安全设置如kernel.perf_event_restrict和kernel.kptr_restrict的限制），async-profiler会显示警告信息，但同时会完全忽略这类调用链，而不是至少显示用户空间部分的调用信息。

问题根源

经过分析，问题的根本原因在于async-profiler在处理perf_event_attr.exclude_kernel标志时的逻辑缺陷。当系统配置仅允许用户空间测量时（这是Linux 4.6以来的默认设置），async-profiler会自动启用alluser选项，这会导致所有发生在内核空间的执行样本被静默丢弃。

解决方案

开发团队对CPU性能分析逻辑进行了重要改进：

自动检测机制：现在async-profiler会通过尝试创建虚拟perf_event来自动检查perf_events的可用性。
优雅降级策略：
- 如果内核空间分析不可用（包括被perf_event_restrict设置或seccomp限制的情况），自动回退到基于timer_create API的ctimer模式
- 如果perf_events可用但内核符号被隐藏，继续使用perf_events并显示警告，只是不显示内核堆栈跟踪
配置优化：
- 移除了allkernel选项
- 强制仅用户空间分析需显式指定-e cpu-clock --all-user
- JFR记录中新增engine字段，明确当前使用的分析引擎