Reactor Core项目中TimedScheduler未停止样本问题分析与修复

2025-06-09 13:18:12作者：吴年前Myrtle

在Reactor Core项目的Micrometer集成模块中，TimedScheduler实现存在一个潜在的性能问题：当使用TimedScheduler装饰Reactor调度器时，某些情况下会导致未正确清理的任务样本堆积，进而引发CPU使用率异常升高。本文将深入分析该问题的技术背景、产生原因及解决方案。

问题背景

TimedScheduler是Reactor Core提供的一个装饰器类，用于为底层调度器添加Micrometer指标采集功能。它通过包装原始Runnable任务为TimedRunnable来实现对任务执行时间的监控，其中关键指标包括：

待处理任务数（pendingTasks）
任务执行时间（executionTime）
任务提交延迟（submissionLatency）

在正常流程中，每个TimedRunnable实例会在任务执行或取消时停止对应的指标采样。但实际生产环境中发现，部分样本未被正确停止，导致pendingTasks指标持续增长。

问题根源分析

通过问题重现和代码审查，发现核心问题存在于任务取消处理流程中：

原始实现中，TimedScheduler直接装饰Scheduler接口，而非Scheduler.Worker
当任务被取消时（如超时或显式dispose），底层Worker能够跟踪并取消已提交任务
但TimedScheduler未正确处理Worker层面的任务取消通知，导致pendingTasks样本泄漏

典型重现场景包括：

使用timeout操作符时触发的任务取消
调度器dispose时未完成任务的强制终止
长时间运行任务被中断的情况

技术解决方案

修复方案主要包含以下关键改进：

Worker级装饰：将装饰目标从Scheduler改为Scheduler.Worker，确保能正确捕获所有任务生命周期事件
取消通知处理：增强TimedRunnable对dispose事件的响应，确保任何取消操作都会停止指标采样
资源清理保证：在调度器dispose时强制清理所有待处理任务的指标样本

改进后的任务处理流程：

class TimedRunnable {
    void run() {
        try {
            pendingSample.stop();
            delegate.run();
        } finally {
            executionSample.stop();
        }
    }
    
    void dispose() {
        pendingSample.stop();
        delegate.dispose();
    }
}