Async-profiler在Zing JDK上使用cache-misses事件的排障指南

2025-05-28 15:36:09作者：傅爽业Veleda

问题现象分析

在使用async-profiler工具对Zing JDK应用程序进行性能分析时，部分用户遇到了无法采集cache-misses硬件性能事件的问题。具体表现为：

在Zing23.08.100.0+1版本环境中可以正常采集cache-misses事件
在Zing23.08.200.0+3版本环境中采集失败，出现"perf_event_open failed: No such file or directory"错误
调整内核参数kernel.perf_event_security和kernel.kptr_restrict后，仅消除了部分警告信息，但核心问题依然存在

根本原因探究

这个问题本质上与虚拟化环境对硬件性能计数器的访问限制有关。cache-misses是CPU提供的硬件性能监控计数器(PMC)事件，其可用性取决于：

CPU架构支持：现代x86处理器通过Architectural Performance Monitoring(APM)功能提供性能计数器
虚拟化环境配置：云服务商(如AWS)通常会在共享实例中禁用PMC访问
内核权限设置：即使硬件支持，也需要适当的内核参数配置

诊断方法详解

要确认当前环境是否支持硬件性能计数器，可以通过以下方法进行诊断：

方法一：使用cpuid指令检查

执行cpuid -1命令，重点关注输出中的"Architecture Performance Monitoring Features"部分：

有效支持的输出示例：

Architecture Performance Monitoring Features (0xa/eax):
   version ID                               = 0x2 (2)
   number of counters per logical processor = 0x4 (4)
   bit width of counter                     = 0x30 (48)

不支持的输出特征：

Architecture Performance Monitoring Features (0xa/eax):
   version ID                               = 0x0 (0)
   number of counters per logical processor = 0x0 (0)

方法二：检查内核启动日志

通过dmesg查看内核启动时的Performance Events相关日志：

支持PMC的环境：

Performance Events: IvyBridge events, full-width counters, Intel PMU driver
... version:                2
... bit width:              48

不支持的环境：

Performance Events: unsupported p6 CPU model 154 no PMU driver

解决方案建议

确认环境支持性：首先使用上述诊断方法确认当前环境是否支持硬件性能计数器
调整分析策略：在不支持PMC的环境中，可改用软件事件进行分析，如：
- CPU分析：-e cpu
- 锁分析：-e lock
- 内存分配分析：-e alloc
环境迁移：对于必须使用硬件事件的分析场景，考虑迁移到支持PMC的专用服务器环境