OpenJ9 JIT优化System.nanoTime导致Liberty InstantOn事务超时问题分析

2025-06-24 22:26:18作者：尤辰城Agatha

在Liberty应用服务器25.0.0.4版本的InstantOn功能中，我们发现了一个在zLinux/s390x架构OpenShift平台上特有的问题：当部署InstantOn检查点镜像应用时，服务器启动过程中会出现jakarta.transaction.TransactionRolledbackException: Transaction is ended due to timeout异常。经过深入调查，我们发现这与OpenJ9 JIT编译器对System.nanoTime方法的特殊处理有关。

问题现象

在zLinux OCP环境中，Liberty InstantOn服务器启动时，事务处理会在120秒后超时并回滚。从日志中可以观察到以下关键信息：

事务超时警告：WTRN0006W: Transaction has timed out after 120 seconds
最终抛出异常：jakarta.transaction.TransactionRolledbackException: Transaction is ended due to timeout
问题仅出现在zLinux OCP环境，其他平台不受影响

根本原因分析

通过对比测试，我们发现：

使用-Xnoaot参数(禁用AOT编译)时，问题不再出现
当限制AOT编译代码加载时，问题复现率显著降低
关键方法java/util/concurrent/ScheduledThreadPoolExecutor$ScheduledFutureTask.getDelay的AOT编译存在问题

深入分析AOT编译日志发现，JIT编译器对System.nanoTime方法进行了特殊处理。在zLinux架构上，这个处理会使用s390x特有的指令来获取高精度时间。

技术细节

在AOT编译过程中，JIT编译器识别到System.nanoTime调用，并生成了如下处理代码：

STCKF    Auto[<temp slot 3>] ?+0(GPR5)
LG      GPR_0037, Auto[<temp slot 3>] ?+0(GPR5)
LARL    GPR_0038, &<LiteralPool Base Address>
SLG     GPR_0037,#457 =X(7d91048bca000000) 0(GPR_0038)
SRLG    GPR_0037,GPR_0037,1

这段处理代码直接使用s390x的硬件指令来获取时间，而不是通过常规的Java方法调用路径。在InstantOn的检查点/恢复场景下，这种处理可能导致时间计算出现偏差，进而引发事务超时。