Async-profiler日志系统缺陷分析与修复方案

2025-05-28 17:55:40作者：幸俭卉

问题背景

在Java性能分析工具async-profiler的使用过程中，发现了一个与日志系统相关的严重缺陷。该缺陷可能导致JVM进程崩溃，同时还会造成日志信息丢失。这个问题的触发条件与Linux系统的性能监控参数配置和线程创建频率密切相关。

技术细节分析

崩溃问题根源

当使用asprof工具启动和停止分析时，停止操作会执行Log::open函数。这个函数会关闭由启动操作创建的FILE*文件指针。如果在此时频繁创建线程，且遇到/proc/sys/kernel/perf_event_mlock_kb限制导致mmap失败时，async-profiler会尝试向已关闭的文件指针写入错误信息"perf_event mmap failed"，这属于未定义行为，最终导致以下三种类型的崩溃：

SIGSEGV段错误：当尝试访问无效内存时触发
堆损坏错误：表现为"corrupted double-linked list"
标准IO句柄错误：glibc检测到无效的stdio句柄

日志丢失问题

在分析启动阶段结束时，日志文件会被解除链接(unlink)。如果此时线程频繁创建且mmap失败，错误信息仍会尝试写入已解除链接的文件，导致日志信息实际上被丢弃。

配置参数误解

文档中对/proc/sys/kernel/perf_event_mlock_kb的描述不够准确。实际上这个参数是每个CPU核心的限制值，而非全局限制。正确的理解应该是"8 * 线程数 / CPU核心数"。

解决方案

崩溃修复

通过引入读写锁(read-write lock)来保护FILE*文件指针的访问，确保在多线程环境下对日志文件的安全操作。

日志可靠性增强

当检测到日志文件不可用时，自动将日志输出重定向到标准输出(stdout)，避免重要信息的丢失。这对于诊断性能分析过程中的问题至关重要。

文档完善

更新关于perf_event_mlock_kb参数的说明，使其更准确地反映Linux内核的实际行为，帮助用户正确配置系统参数。

影响范围

该问题影响所有使用async-profiler的Java版本，特别是在以下环境中更容易触发：

Linux系统
非root用户运行
频繁创建线程的应用程序
perf_event_mlock_kb值设置较小的系统

最佳实践建议

对于需要高频线程创建的应用，适当增大/proc/sys/kernel/perf_event_mlock_kb值
监控分析过程中的日志输出，确保没有重要的错误信息被忽略
定期更新到最新版本的async-profiler以获取稳定性改进

这个问题的修复显著提高了async-profiler在复杂环境下的稳定性，特别是在处理高并发线程场景时的可靠性。对于Java性能分析工作来说，稳定的日志系统是诊断问题的重要保障。

登录后查看全文

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。