OpenJ9虚拟机中虚拟线程监视器重试机制问题分析

2025-06-24 16:39:35作者：幸俭卉

Eclipse OpenJ9: A Java Virtual Machine for OpenJDK that's optimized for small footprint, fast start-up, and high throughput. Builds on Eclipse OMR (https://github.com/eclipse/omr) and combines with the Extensions for OpenJDK for OpenJ9 repo.

项目地址：https://gitcode.com/gh_mirrors/op/openj9

问题背景

在OpenJ9虚拟机的JDK24版本中，java/lang/Thread/virtual/RetryMonitorEnterWhenPinned.java测试用例出现了超时问题。这个问题涉及到虚拟线程(Virtual Threads)在监视器进入(monitorenter)操作时的重试机制，特别是在线程被固定(pinned)状态下的行为表现。

问题现象

测试用例创建了100个虚拟线程，这些线程尝试获取一个已经被持有的锁。测试期望这些虚拟线程能够进入BLOCKED状态，直到锁可用。然而实际运行中，虚拟线程未能按预期进入BLOCKED状态，导致测试超时。

技术分析

虚拟线程与监视器交互机制

在OpenJ9虚拟机中，虚拟线程与监视器的交互存在几个关键点：

YieldPinnedVirtualThreads选项：该选项控制被固定的虚拟线程是否允许让出执行权。测试需要此选项来启用JEP 491的基础VM变更。
监视器膨胀过程：当虚拟线程尝试获取已被持有的锁时，监视器会经历膨胀过程。在这个过程中，如果处理不当，可能会导致其他线程错误地获取锁。
线程状态转换：测试期望虚拟线程在无法获取锁时进入BLOCKED状态，但实际观察到的状态可能是RUNNABLE或TERMINATED。

问题根源

经过深入分析，发现问题主要源于以下几个方面：

线程数量与处理器核心数的关系：测试行为与创建的虚拟线程数量密切相关。当线程数量超过可用处理器核心数时，问题更容易出现。
监视器膨胀时机：在preparePinnedVirtualThreadForUnmount过程中，阻塞进入监视器的膨胀可能错误地允许其他线程进入，而实际上锁仍被另一个线程持有。
GC与JIT的影响：测试需要在禁用GC和JIT的情况下运行(-Xint -Xgcpolicy:nogc)，因为JEP 491相关的GC和VM-JIT协调变更仍在进行中。

解决方案

开发团队通过多个PR逐步解决了这个问题：

基础VM变更：修复了监视器膨胀过程中的竞争条件，确保在虚拟线程准备卸载时正确处理监视器状态。
状态管理优化：改进了虚拟线程的状态转换逻辑，确保在无法获取锁时正确进入BLOCKED状态。
资源清理机制：解决了虚拟线程关闭时可能出现的资源泄漏问题。

验证结果

经过修复后，测试用例在不同配置下表现如下：

解释模式：在-Xint -Xgcpolicy:nogc -XX:+YieldPinnedVirtualThread配置下测试通过。
JIT模式：在默认配置下也通过了测试，但需要注意在某些平台(如zLinux)上可能还存在相关问题。

技术启示

这个问题展示了虚拟线程实现中的几个关键挑战：

状态管理复杂性：虚拟线程的状态转换比传统线程更为复杂，需要特别处理固定状态下的行为。
资源协调：虚拟线程与监视器、GC和JIT等子系统间的协调需要精细设计。
平台兼容性：不同硬件平台可能表现出不同的行为，需要针对性地优化。

OpenJ9团队通过这个问题深入理解了虚拟线程与监视器交互的底层机制，为后续虚拟线程相关功能的完善奠定了基础。

Eclipse OpenJ9: A Java Virtual Machine for OpenJDK that's optimized for small footprint, fast start-up, and high throughput. Builds on Eclipse OMR (https://github.com/eclipse/omr) and combines with the Extensions for OpenJDK for OpenJ9 repo.

项目地址：https://gitcode.com/gh_mirrors/op/openj9

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理