EasyScheduler 告警状态统计逻辑缺陷分析与修复

2025-05-17 22:26:20作者：瞿蔚英Wynne

Apache DolphinScheduler，现代数据编排平台，低代码构建高性能工作流，提供直观用户界面，简化复杂数据管道任务依赖管理。支持四部署模式：独立、集群、Docker与Kubernetes；多方式创建管理流程；高可靠性和可用性，分布式架构确保横向扩展能力。性能卓越，比同类平台快N倍，日处理千万级任务。云原生设计，兼容多云数据中心工作流。版本控制，状态灵活操作，多租户支持，权限精细管控。快速开始，从单独或容器化环境轻松上手。独特UI展示，一目了然项目概览和实时监控。欢迎加入社区，贡献改进或报告问题，共建强大数据编排生态。

项目地址：https://gitcode.com/gh_mirrors/ea/EasyScheduler

问题背景

在EasyScheduler项目(后更名为DolphinScheduler)中，告警模块负责管理系统中的各种告警通知。当系统触发告警时，会通过配置的告警实例发送通知给相关人员。系统需要统计告警发送的成功和失败次数，以便进行状态跟踪和后续处理。

问题现象

开发团队发现告警状态统计存在逻辑缺陷：无论告警实际发送行为如何，系统总是将告警状态标记为"部分成功"(PartialSuccess)。经过排查，发现问题出在统计成功和失败次数的代码逻辑上。

技术分析

错误代码实现

原代码使用Java Stream API进行统计，但存在逻辑错误：

long failureCount = alertSendStatuses.stream()
     .map(alertSendStatus -> alertSendStatus.getSendStatus() == AlertStatus.EXECUTION_FAILURE)
     .count();

long successCount = alertSendStatuses.stream()
    .map(alertSendStatus -> alertSendStatus.getSendStatus() == AlertStatus.EXECUTION_SUCCESS)
    .count();

这段代码的问题在于：

使用map操作将AlertSendStatus对象转换为布尔值
然后对转换后的布尔流进行count操作
这样统计的实际上是流中元素的总数，而非真正的成功或失败次数

正确实现方式

正确的做法应该是使用filter操作先过滤出符合条件的元素，再进行计数：

long failureCount = alertSendStatuses.stream()
     .filter(alertSendStatus -> alertSendStatus.getSendStatus() == AlertStatus.EXECUTION_FAILURE)
     .count();

long successCount = alertSendStatuses.stream()
    .filter(alertSendStatus -> alertSendStatus.getSendStatus() == AlertStatus.EXECUTION_SUCCESS)
    .count();