Apache SkyWalking 中 CounterWindow 并发问题分析与修复

2025-05-08 15:00:11作者：董宙帆

问题背景

在 Apache SkyWalking 的 OAP 服务器中，CounterWindow 类负责处理指标数据的窗口计算。该组件主要用于实现类似 increase('PT1M') 这样的函数调用，用于计算指标在指定时间窗口内的增量值。

问题现象

当多个实例同时上报自定义指标数据时，系统偶尔会抛出 NullPointerException 异常，错误信息显示在比较 Tuple2 对象时出现了空指针。更深入的分析发现，这是由于 PriorityQueue 在多线程环境下被并发修改导致的内部状态损坏。

根本原因分析

CounterWindow 类使用了两个 ConcurrentHashMap 来存储指标数据：

lastElementMap 存储最后一个元素
windows 存储时间窗口内的数据队列

问题出在 windows 这个 ConcurrentHashMap 上。虽然 ConcurrentHashMap 本身是线程安全的，但它返回的 PriorityQueue 实例并不是线程安全的。当多个线程同时对同一个 PriorityQueue 进行操作时（如 offer、poll、peek 等），会导致队列内部状态不一致，最终引发各种异常。

技术细节

PriorityQueue 是一个基于优先级堆的无界队列，其内部实现依赖于数组和堆排序算法。在多线程环境下，如果不对其进行同步控制，可能会出现以下问题：

数组越界
堆结构破坏
元素丢失
返回错误的最小/最大值

在 SkyWalking 的场景中，当多个线程同时调用 increase() 方法处理同一个指标时，就会对同一个 PriorityQueue 进行并发修改，导致上述问题。

解决方案

最简单的修复方法是在操作 PriorityQueue 时添加同步锁。具体修改是在 increase() 方法中，使用 synchronized 关键字对 window 对象加锁：

public Tuple2<Long, Double> increase(String name, ImmutableMap<String, String> labels, 
                                   Double value, long windowSize, long now) {
    ID id = new ID(name, labels);
    Queue<Tuple2<Long, Double>> window = windows.computeIfAbsent(id, unused -> new PriorityQueue<>());
    synchronized (window) {
        // 所有对window的操作都在同步块内
        window.offer(Tuple.of(now, value));
        // ... 其余逻辑
    }
}