XXL-JOB时间轮并发问题分析与解决方案

2025-05-06 17:41:57作者：俞予舒Fleming

问题背景

XXL-JOB作为一款分布式任务调度平台，其核心调度机制依赖于时间轮算法来实现任务的定时触发。在XXL-JOB 2.4.1版本中，时间轮实现存在一个潜在的并发问题，可能导致任务丢失，特别是在高并发场景下（秒级任务超过1万时）这一问题会显现出来。

问题分析

时间轮实现的核心数据结构是一个Map，其中key为时间槽（ringSecond），value为待执行任务的jobId列表。原始实现中，这个Map的remove和get操作缺乏并发控制，导致在多线程环境下可能出现任务丢失的情况。

并发场景模拟

假设存在两个线程：

线程A：执行pushTimeRing方法，向时间轮添加jobId
线程B：执行remove操作，从时间轮取出jobId列表

当这两个线程同时操作同一个时间槽时，可能出现以下执行序列：

线程A获取指定时间槽的list
线程B执行remove操作，获取同一个list
线程B执行list.addAll将任务取出
线程A向list添加新的jobId

此时，线程A添加的jobId将会丢失，因为该list已经被线程B从Map中移除，后续调度将无法获取到这个list。

解决方案演进

初步尝试

使用线程安全List：尝试使用Collections.synchronizedList或CopyOnWriteArrayList等线程安全集合，但测试发现在2万任务级别仍会出现任务丢失。
基于issue #2892的方案：通过加锁机制改进，测试发现在4万任务级别仍会出现任务丢失。

这些方案虽然降低了问题出现的概率，但未能从根本上解决问题，因为核心问题在于向一个已经被Map移除引用的list添加数据。

最终解决方案：基于CAS的AtomicReferenceArray

采用Java并发包中的AtomicReferenceArray类实现CAS操作，完全取代原有的Map结构。核心思路如下：

pushTimeRing方法改进：

private static void pushTimeRing(int ringSecond, int jobId) {
    List<Integer> jobList = ringArr.getAndSet(ringSecond, null); 
    if(jobList == null) {
        jobList = new ArrayList<>();
    }
    jobList.add(jobId);
    ringArr.set(ringSecond, jobList);
}

关键点：

使用getAndSet原子操作获取list的同时将其置空
确保remove操作不会获取到同一个list进行并发操作

消费线程改进：

for(int i = 0; i < 2; i++) {
    List<Integer> tmpData = ringArr.getAndSet((nowSecond + 60 - i) % 60);
    if(tmpData != null) {
        ringItemData.addAll(tmpData);
    }
}

关键点：