DeepFlow项目中async-profiler数据集成问题分析与解决方案

2025-06-25 22:52:49作者：蔡丛锟

eBPF Observability - Distributed Tracing and Profiling

项目地址：https://gitcode.com/gh_mirrors/de/deepflow

背景介绍

DeepFlow作为一款云原生可观测性平台，支持集成多种性能剖析工具的数据。其中对async-profiler工具的支持是其重要功能之一。async-profiler是一款低开销的Java性能分析工具，能够生成JFR格式的性能剖析数据。

问题现象

在使用DeepFlow集成async-profiler数据时，发现通过async-profiler生成的CPU剖析数据(.jfr文件)上传后，DeepFlow的profile表中没有生成相应数据。而同样的上传流程，当使用wall模式生成的剖析数据时却能正常工作。

技术分析

经过深入调试发现，问题根源在于DeepFlow服务端处理JFR数据时调用了pyroscope库的Parse方法。该库在早期版本中对async-profiler生成的CPU事件类型支持不完善，导致数据被跳过。

async-profiler支持多种剖析模式：

CPU模式：基于采样方式记录CPU使用情况
Wall模式：基于时钟周期定期进行剖析
其他模式：如内存分配、锁竞争等

虽然Wall模式也是CPU相关的剖析，但它使用不同的时间采样机制，这种模式下的数据能够被pyroscope库正确处理。

解决方案

针对这一问题，目前有以下几种解决方案：

使用Wall模式替代CPU模式：修改async-profiler命令参数，将-e cpu改为-e wall，例如：
```
./asprof -e wall -d 10 -f profile.jfr <PID>
```
这种模式同样可以提供CPU使用情况的剖析数据，且能被DeepFlow正确处理。
升级pyroscope库：如果项目允许，可以尝试升级DeepFlow依赖的pyroscope库版本，新版本可能已经完善了对async-profiler CPU模式的支持。
修改DeepFlow代码：对于有能力的技术团队，可以修改DeepFlow中处理JFR数据的相关代码，增加对async-profiler CPU模式数据的支持。

最佳实践建议

对于需要使用DeepFlow集成async-profiler数据的用户，建议：

优先使用Wall模式进行剖析，它同样能反映CPU使用情况且兼容性更好
上传数据时确保使用正确的Content-Type（application/jfr）
对于大规模生产环境，建议先在小规模测试环境中验证数据集成效果
关注DeepFlow的版本更新，及时获取对async-profiler更完善的支持

总结

DeepFlow与async-profiler的集成整体上是可行的，但在特定剖析模式下可能会遇到兼容性问题。通过选择合适的剖析模式或升级相关组件，可以解决大多数集成问题。随着DeepFlow项目的持续发展，对各种剖析工具的支持也将越来越完善。

eBPF Observability - Distributed Tracing and Profiling

项目地址：https://gitcode.com/gh_mirrors/de/deepflow

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库