EasyScheduler工作流定义与血缘查询异常问题分析与解决

2025-05-17 05:23:33作者：柯茵沙

问题背景

在EasyScheduler 3.2.0版本中，用户反馈了两个关键功能出现异常：

工作流定义列表查询时抛出"分页查询工作流定义列表错误"异常
工作流血缘关系查询时抛出"查询血缘失败"异常

这两个问题都表现为Duplicate key错误，系统提示存在重复键值导致数据收集失败。

问题现象分析

工作流定义查询异常

当用户访问工作流定义页面时，系统抛出IllegalStateException，错误信息显示存在重复的Schedule记录。关键错误信息如下：

Duplicate key Schedule(id=8, processDefinitionCode=13453576351553...)

异常堆栈显示问题发生在ProcessDefinitionServiceImpl.queryProcessDefinitionListPaging方法的第580行，当系统尝试将查询结果转换为Map时，由于存在重复的processDefinitionCode而失败。

工作流血缘查询异常

当用户访问工作流血缘页面时，系统同样抛出IllegalStateException，但这次是针对WorkFlowLineage对象：

Duplicate key org.apache.dolphinscheduler.dao.entity.WorkFlowLineage@79a5fae4

异常发生在WorkFlowLineageServiceImpl.queryWorkFlowLineage方法的185行，同样是在数据收集转换为Map时出现重复键问题。

根本原因

经过深入分析，这两个问题具有相同的根本原因：

数据库表设计约束不足：t_ds_schedules表中允许存在多个具有相同process_definition_code的记录
查询逻辑缺陷：系统在查询时使用左连接(LEFT JOIN)关联多个表，当主表的一条记录在关联表中有多条匹配记录时，会导致结果集出现重复数据
数据处理不当：在Java代码中，使用Stream API将结果集转换为Map时，没有处理可能的重复键情况

解决方案

针对这个问题，可以从以下几个层面进行解决：

数据库层面

添加唯一约束：在t_ds_schedules表上为process_definition_code添加唯一约束，确保一个工作流定义只能有一个调度配置
清理重复数据：执行数据清洗脚本，删除或合并重复的调度记录

代码层面

修改查询逻辑：在SQL查询中使用DISTINCT关键字或GROUP BY子句消除重复记录
增强数据处理：在Java代码中使用更安全的收集器，处理可能的重复键情况，例如：

// 原代码可能类似这样
Map<Long, Schedule> scheduleMap = schedules.stream()
    .collect(Collectors.toMap(Schedule::getProcessDefinitionCode, Function.identity()));

// 修改为处理重复键的情况
Map<Long, Schedule> scheduleMap = schedules.stream()
    .collect(Collectors.toMap(
        Schedule::getProcessDefinitionCode,
        Function.identity(),
        (existing, replacement) -> existing)); // 保留现有值或根据业务逻辑处理