async-profiler中no_Java_frame问题的分析与解决

2025-05-28 22:53:13作者：蔡丛锟

问题背景

在使用async-profiler对ARM服务器上的大数据处理应用进行性能分析时，发现火焰图中出现了大量标记为no_Java_frame的条目。这些条目占据了相当比例的CPU时间，但却无法提供具体的调用栈信息，给性能瓶颈分析带来了困难。

环境配置

分析环境基于ARM64架构，具体配置如下：

操作系统：CentOS Linux 8.4
Java版本：BiSheng定制的OpenJDK 11.0.16
async-profiler版本：2.9（后续升级到3.0进行测试）
容器资源配置：40核CPU，160GB内存

问题现象

在两种不同场景下生成的火焰图显示了不同的表现：

在线生产环境：no_Java_frame条目占据了火焰图的大部分区域
基准测试环境：no_Java_frame条目较少，调用栈信息较为完整

问题诊断过程

初步排查

版本升级：将async-profiler从2.9升级到3.0版本
参数调整：尝试添加--cstack dwarf参数，但问题依旧存在
JDK影响：注意到使用的是BiSheng定制的OpenJDK，可能存在帧布局修改

深入分析

通过对比不同--cstack参数的效果发现：

使用--cstack dwarf时，no_Java_frame问题仍然存在
使用--cstack vm时，no_Java_frame条目消失

进一步分析火焰图差异发现，缺失的主要是GC线程相关的调用栈信息，特别是JavaThread::thread_main_inner等关键帧。

问题根源

经过深入调查，发现问题根源在于ARM64架构的特殊性：

JVM会调用生成的原子存根(atomic stubs)
这些存根在正常情况下是不可遍历的
在ARM64架构下，这会导致async-profiler无法正确解析调用栈

解决方案

async-profiler项目组已经针对此问题提交了修复：

改进了对ARM64架构下原子存根调用栈的解析
现在使用--cstack dwarf或--cstack fp参数也能正确恢复这些调用栈

性能优化建议

在分析过程中还发现应用存在大量Full GC现象，这表明内存管理存在问题。建议：

实施严格的内存管理策略
参考HBase的内存管理方式，使用块池(chunk pool)管理缓存数据
精确控制内存使用，减少内存碎片

总结

ARM架构下的性能分析有其特殊性，特别是当使用定制JDK时可能会遇到各种兼容性问题。async-profiler作为一款强大的性能分析工具，能够帮助开发者发现深层次的性能问题。通过合理配置参数和保持工具最新版本，可以有效解决类似no_Java_frame这样的分析难题。

对于大数据处理等内存密集型应用，除了解决分析工具的问题外，还需要从根本上优化内存使用策略，才能获得最佳性能表现。

async-profiler

Sampling CPU and HEAP profiler for Java featuring AsyncGetCallTrace + perf_events

项目地址：https://gitcode.com/GitHub_Trending/as/async-profiler

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

439

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

async-profiler中no_Java_frame问题的分析与解决

问题背景

环境配置

问题现象

问题诊断过程

初步排查

深入分析

问题根源

解决方案

性能优化建议

总结

热门内容推荐

最新内容推荐

项目优选

async-profiler中no_Java_frame问题的分析与解决

问题背景

环境配置

问题现象

问题诊断过程

初步排查

深入分析

问题根源

解决方案

性能优化建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选