OpenJ9虚拟机中虚拟线程监视器等待通知机制的问题分析

2025-06-24 05:05:34作者：牧宁李

背景介绍

在OpenJ9虚拟机的JDK24版本测试过程中，发现了一个与虚拟线程(Thread/virtual)相关的监视器等待通知机制(MonitorWaitNotify)的问题。该问题表现为在ContinuationHelpers.cpp文件中触发了断言失败，具体位置在1106行，断言条件为监视器所有者不应等于当前线程的操作系统线程。

问题现象

测试用例java/lang/Thread/virtual/MonitorWaitNotify.java在执行过程中出现了两种异常情况：

断言失败：在ContinuationHelpers.cpp文件的1106行触发了断言，断言条件为监视器所有者不应等于当前线程的操作系统线程
超时：测试用例执行时间过长导致超时

技术分析

经过技术团队分析，这个问题可能由以下几个因素导致：

监视器膨胀机制问题：断言失败表明在虚拟线程环境下，监视器的所有权管理出现了异常情况。正常情况下，膨胀后的监视器必须被正确释放。
线程执行时序问题：超时现象的分析表明，这可能是一个边缘情况，主线程执行速度异常缓慢，导致虚拟线程中的monitorEnter操作发生在主线程的monitorWait操作之前。
虚拟线程与监视器的交互：OpenJ9对虚拟线程的支持仍在完善中，虚拟线程与传统线程在监视器操作上存在差异，可能导致这种时序问题。

解决方案

技术团队提出了以下解决方案：

代码修复：针对断言问题，提交了修复补丁，确保膨胀后的监视器被正确释放。这个修复已经通过初步验证，解决了断言问题。
测试用例调整：对于难以重现的超时问题，建议暂时排除该测试用例，同时继续深入研究根本原因。
持续监控：在修复补丁合并后，需要持续监控该测试用例的执行情况，确保问题得到彻底解决。

后续工作

需要进一步分析虚拟线程与监视器交互的时序问题，找出导致超时的根本原因。
考虑增强测试用例的健壮性，使其能够适应不同的执行时序。
完善虚拟线程相关的错误检测和处理机制，提高系统的稳定性。

这个问题反映了虚拟线程实现中的复杂性，特别是在与传统线程同步机制交互时的挑战。OpenJ9团队正在积极解决这些问题，以提供更稳定可靠的虚拟线程支持。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。