Apache DolphinScheduler 工作节点负载保护机制引发的任务调度异常分析

2025-05-18 08:57:04作者：邵娇湘

dolphinscheduler

Apache DolphinScheduler is the modern data orchestration platform. Agile to create high performance workflow with low-code

项目地址：https://gitcode.com/gh_mirrors/do/dolphinscheduler

问题现象

在使用Apache DolphinScheduler 3.2.2版本时，部分任务随机出现调度失败的情况，错误日志显示"Worker group not found"异常。具体表现为：

任务失败时提示无法找到工作节点组（如"数仓"、"default"等）
重试后任务通常能成功执行
系统中有1800+任务，使用2个工作节点和2个工作节点组

问题根源分析

通过深入分析系统日志和源代码，发现问题源于DolphinScheduler的工作节点负载保护机制：

负载检测机制：工作节点会定期检测系统负载（CPU、内存等），当CPU使用率超过阈值（默认90%）时，节点会标记为BUSY状态
心跳同步机制：主节点通过心跳信息获取工作节点状态，当节点处于BUSY状态时，主节点会将该节点从可用节点列表中移除
调度决策逻辑：在LowerWeightHostManager类中，如果某个工作节点组下的所有节点都被标记为BUSY，该节点组会被临时从workerHostWeightsMap中清除，导致调度时抛出"Worker group not found"异常

技术细节

关键代码逻辑

负载检测：

// BaseServerLoadProtection.java
if (systemCpuUsage > maxSystemCpuUsagePercentageThresholds) {
    log.info("OverLoad: the system cpu usage: {} is over then the maxSystemCpuUsagePercentageThresholds {}", 
        systemCpuUsage, maxSystemCpuUsagePercentageThresholds);
    return true;
}

节点状态同步：

// LowerWeightHostManager.java
private void syncWorkerResources() {
    if (ServerStatus.BUSY == heartBeat.getServerStatus()) {
        log.warn("Worker {} in workerGroup {} is Busy");
        return Optional.empty();  // BUSY节点不会被加入可用列表
    }
    // 如果所有节点都BUSY，整个workerGroup会被临时移除
    if (!hostWeights.isEmpty()) {
        workerHostWeights.put(workerGroup, hostWeights);
    }
}

调度失败处理：

// BaseTaskDispatcher.java
Set<HostWeight> hostWeights = workerHostWeightsMap.get(workerGroup);
if (hostWeights == null) {
    throw new WorkerGroupNotFoundException("Can not find worker group " + workerGroup);
}

问题本质

这不是真正的"工作节点组不存在"问题，而是系统负载保护机制与任务调度逻辑之间的设计不一致：

负载保护机制正确地识别了系统过载
但调度系统将临时不可用的节点组错误地解释为"节点组不存在"
这种设计导致用户体验不佳，且错误信息具有误导性

解决方案与优化建议

临时解决方案

对于当前3.2.2版本，可以调整以下参数缓解问题：

禁用负载保护：worker.server-load-protection.enabled=false
增加工作线程数：worker.exec-threads=500（根据实际硬件调整）
修改满负载策略：worker.task-execute-threads-full-policy=CONTINUE

长期优化建议

从架构设计角度，建议以下改进：

错误信息优化：将"Worker group not found"改为更准确的"All workers in group are busy"
调度策略改进：即使节点组处于BUSY状态，也应保留组信息，只是标记为不可用
负载均衡优化：引入更智能的负载预测算法，避免因瞬时峰值导致误判
队列管理：完善任务排队机制，而不是简单地拒绝或报错

最佳实践

对于生产环境部署DolphinScheduler，建议：

监控系统负载：建立完善的监控体系，提前发现资源瓶颈
合理配置参数：根据实际硬件资源调整线程数和负载阈值
容量规划：确保工作节点有足够的资源余量应对峰值负载
版本升级：关注后续版本中对此问题的修复和改进

总结

这个问题揭示了分布式任务调度系统中资源管理与任务分配之间的复杂交互关系。通过这次分析，我们不仅找到了问题的技术根源，也提出了系统性的优化方向。对于使用者而言，理解这些底层机制有助于更好地配置和维护DolphinScheduler系统，确保任务调度的稳定性和可靠性。

dolphinscheduler

Apache DolphinScheduler is the modern data orchestration platform. Agile to create high performance workflow with low-code

项目地址：https://gitcode.com/gh_mirrors/do/dolphinscheduler

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。