Eclipse OpenJ9在zLinux OCP环境下InstantOn启动时的事务超时问题分析

2025-06-24 20:33:39作者：幸俭卉

Eclipse OpenJ9: A Java Virtual Machine for OpenJDK that's optimized for small footprint, fast start-up, and high throughput. Builds on Eclipse OMR (https://github.com/eclipse/omr) and combines with the Extensions for OpenJDK for OpenJ9 repo.

项目地址：https://gitcode.com/gh_mirrors/op/openj9

问题背景

在zLinux/s390x架构的OpenShift容器平台(OCP)上部署基于Liberty InstantOn检查点镜像的应用时，系统启动过程中会出现jakarta.transaction.TransactionRolledbackException: Transaction is ended due to timeout异常。这一现象仅在zLinux OCP环境中出现，其他平台运行正常。

问题现象

从日志中可以观察到，Liberty服务器启动过程中，事务处理出现了120秒超时后被回滚的情况。关键日志显示：

事务超时警告：WTRN0006W: Transaction ... has timed out after 120 seconds
事务回滚记录：WTRN0041I: Transaction ... has been rolled back
最终抛出异常：jakarta.transaction.TransactionRolledbackException: Transaction is ended due to timeout

技术分析

经过深入调查，发现问题与Eclipse OpenJ9的即时编译(JIT)和预先编译(AOT)机制有关，具体表现为：

平台特异性：问题仅出现在zLinux/s390x架构，其他架构无此问题
AOT编译影响：当禁用AOT编译(-Xnoaot)时，问题不再复现
关键方法定位：java/util/concurrent/ScheduledThreadPoolExecutor$ScheduledFutureTask.getDelay方法中的System.nanoTime调用在AOT编译中被加速处理

根本原因

在zLinux平台上，OpenJ9的AOT编译器对System.nanoTime()方法进行了特殊优化，将其转换为直接使用s390x架构的STCKF指令(Store Clock Fast)来获取高精度时间。这种优化在常规场景下能提升性能，但在InstantOn检查点恢复场景下可能导致时间计算异常。

具体表现为：

AOT编译生成的代码使用STCKF指令直接读取硬件时钟
检查点恢复后，时间计算可能出现偏差
导致事务管理器错误判断事务持续时间，触发超时回滚

解决方案

针对这一问题，开发团队提出了以下解决方案：

临时解决方案：在zLinux平台上为InstantOn场景禁用对System.nanoTime()的AOT加速优化
长期方案：完善AOT编译器的检查点感知能力，确保在生成可重定位代码时正确处理时间相关操作

验证表明，临时解决方案在20次连续测试中均未再出现事务超时问题，证实了问题定位的准确性。

技术启示

这一案例为我们提供了几个重要的技术启示：

即时编译与检查点恢复的交互：JIT/AOT优化需要考虑检查点恢复场景的特殊性
时间处理的平台差异：不同架构对时间操作有不同的硬件加速方式，需要统一处理
事务管理的依赖性：事务超时机制高度依赖准确的时间计算，任何时间处理异常都可能导致事务错误

总结

Eclipse OpenJ9团队通过细致的日志分析和实验验证，成功定位并解决了zLinux OCP环境下Liberty InstantOn启动时的事务超时问题。这一案例不仅解决了具体的技术问题，也为JVM在检查点恢复场景下的优化处理提供了宝贵经验。未来，团队将继续完善AOT编译器对检查点场景的支持，确保类似优化在不同平台上都能正确工作。

openj9

项目地址：https://gitcode.com/gh_mirrors/op/openj9

登录后查看全文