OpenJ9项目中SynchronousQueue20Test测试超时问题分析
2025-06-24 04:31:45作者:齐冠琰
问题背景
在OpenJ9项目的JDK24版本测试过程中,发现java/util/concurrent/tck/JSR166TestCase.java中的SynchronousQueue20Test::testFairDoesntLeak测试用例出现了超时问题。这个问题在ppc64架构的AIX和Linux平台上多次复现,表现为测试执行过程中线程卡死,最终导致测试超时失败。
问题现象
测试用例在执行过程中会卡在以下两个位置之一:
- 执行survivors.put(item, null)操作时
- 执行queue.take()操作时
通过分析核心转储文件发现,当测试超时时,存在虚拟线程被阻塞在monitorenter操作上,这些线程被添加到blockedContinuations列表中但无法被唤醒。主线程同样被阻塞在资源获取上,导致整个测试无法继续执行。
根本原因
深入分析后发现,这个问题与OpenJ9虚拟机中对象监视器的状态转换机制有关。具体表现为:
- 当对象监视器处于扁平锁状态时,线程1正在尝试获取该锁
- 同时,线程2并发地将该监视器膨胀
- 按照设计,线程2应该通知线程1关于监视器膨胀的情况,使线程1能做出相应处理
- 但实际上线程1未能及时收到这个通知,继续执行而没有处理膨胀情况
- 这导致对象的lockword变为0x2(无效状态),尽管监视器实际上已经膨胀
- 最终结果是阻塞在对象监视器上的虚拟线程无法被唤醒,导致测试超时
解决方案
该问题与OpenJ9项目中另一个问题(编号21826)是重复的,根本原因相同。开发团队已经识别出问题所在,并正在修复中。修复方案主要涉及:
- 确保在监视器膨胀时正确通知所有相关线程
- 完善对象锁状态转换的同步机制
- 修复虚拟线程唤醒逻辑
在问题完全修复前,建议暂时排除这些测试用例以避免影响整体测试流程。待修复完成后,这些测试用例将被重新启用。
技术影响
这个问题揭示了OpenJ9虚拟线程实现中一个重要的同步问题,特别是在多线程环境下对象监视器状态转换时的线程通信机制。它不仅影响特定测试用例的执行,还可能在实际应用中导致类似的线程阻塞问题。开发团队的修复将增强虚拟线程实现的健壮性,特别是在高并发场景下的可靠性。
登录后查看全文
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
514
3.69 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
873
530
Ascend Extension for PyTorch
Python
315
358
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
333
151
暂无简介
Dart
753
181
React Native鸿蒙化仓库
JavaScript
298
347
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
11
1
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
110
125
仓颉编译器源码及 cjdb 调试工具。
C++
152
884