Async-profiler日志系统崩溃问题分析与解决方案

2025-05-28 08:55:37作者：庞眉杨Will

问题背景

在Linux系统的性能分析工具async-profiler中，发现了一个与日志系统相关的严重问题。当使用asprof工具进行性能分析时，如果频繁创建线程且遇到perf_event mmap失败的情况，会导致程序崩溃或日志丢失。这个问题在非root用户环境下尤为明显。

问题根源分析

1. 文件描述符竞争问题

核心问题出现在日志系统的文件操作上。当使用asprof工具时：

启动分析时会创建日志文件
停止分析时会关闭该文件描述符
但在此期间如果有线程创建操作，且发生perf_event mmap失败，会尝试向已关闭的文件描述符写入日志

这种竞争条件导致了三种典型的崩溃表现：

SIGSEGV段错误
glibc检测到无效的stdio句柄
内存链表损坏

2. 日志丢失问题

另一个问题是日志文件在分析结束时被unlink删除，但可能仍有日志需要写入，导致这些日志最终丢失。

3. 配置误解问题

文档中对/proc/sys/kernel/perf_event_mlock_kb参数的描述不够准确。实际上这个限制是针对每个CPU核心的，而非全局限制。

解决方案

1. 文件操作同步

通过引入读写锁来保护文件描述符操作，确保在关闭文件描述符时不会有其他线程尝试写入日志。

2. 日志回退机制

当检测到日志文件不可用时，可以将日志回退到标准输出，避免日志丢失。虽然当前设计认为分析会话外的日志行为是未定义的，但从用户体验角度考虑，提供回退机制更为友好。

3. 文档修正

更新文档中对perf_event_mlock_kb参数的说明，明确指出这是每个CPU核心的限制，并给出更准确的计算公式。

技术细节

perf_event mmap失败通常发生在以下情况：

非root用户运行
/proc/sys/kernel/perf_event_mlock_kb设置过小
系统中有大量线程创建操作

这种情况下，async-profiler会尝试记录错误日志，但原有的日志系统设计无法正确处理这种异常场景。

最佳实践建议

对于需要大量线程的应用，适当增大perf_event_mlock_kb值
在性能分析期间，避免频繁创建销毁线程
监控日志文件状态，确保日志完整
使用最新版本的async-profiler，其中已包含相关修复

总结

日志系统是性能分析工具的重要组成部分。async-profiler通过引入同步机制和回退策略，有效解决了日志相关的崩溃问题，提升了工具的稳定性和可靠性。同时，准确的文档说明也能帮助用户更好地配置和使用工具。

对于性能分析工具开发者而言，这个案例也提醒我们：在涉及多线程和资源管理的场景下，需要特别注意资源访问的同步问题，以及异常情况下的健壮性处理。

async-profiler

Sampling CPU and HEAP profiler for Java featuring AsyncGetCallTrace + perf_events

项目地址：https://gitcode.com/GitHub_Trending/as/async-profiler

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

645

Async-profiler日志系统崩溃问题分析与解决方案

问题背景

问题根源分析

1. 文件描述符竞争问题

2. 日志丢失问题

3. 配置误解问题

解决方案

1. 文件操作同步

2. 日志回退机制

3. 文档修正

技术细节

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

Async-profiler日志系统崩溃问题分析与解决方案

问题背景

问题根源分析

1. 文件描述符竞争问题

2. 日志丢失问题

3. 配置误解问题

解决方案

1. 文件操作同步

2. 日志回退机制

3. 文档修正

技术细节

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选