Apache DolphinScheduler 3.2.x 版本中Worker组随机丢失问题的分析与解决方案
2025-05-19 21:11:09作者:侯霆垣
问题现象
在Apache DolphinScheduler 3.2.2版本的生产环境中,部分定时任务会随机出现调度失败的情况,错误日志显示系统无法找到已明确存在的Worker组(如"数仓"和"default"组)。典型错误表现为:
Dispatch task failed, worker group not found.
org.apache.dolphinscheduler.server.master.dispatch.exceptions.WorkerGroupNotFoundException:
Cannot find worker group: Can not find worker group 数仓
值得注意的是:
- 受影响Worker组确实存在且正常运行
- 800+任务使用相同Worker组,仅部分任务随机失败
- 重试后任务都能成功执行
- 问题会周期性出现(每天)
根本原因分析
通过深入源码分析和日志排查,发现问题源于Worker节点的负载保护机制与资源同步逻辑的交互问题:
-
负载保护触发机制
当Worker节点CPU使用率超过maxSystemCpuUsagePercentageThresholds(默认90%)时,节点会标记为BUSY状态:OverLoad: the system cpu usage: 0.990 is over then the maxSystemCpuUsagePercentageThresholds 0.9 -
资源同步逻辑缺陷
Master节点的LowerWeightHostManager会定期同步Worker资源,其关键逻辑存在两个问题:- 对
BUSY状态的Worker直接返回Optional.empty() - 同步时会先清空
workerHostWeightsMap再填充新数据
- 对
-
竞态条件产生
当所有Worker节点同时处于BUSY状态时:if (!hostWeights.isEmpty()) { workerHostWeights.put(workerGroup, hostWeights); }会导致该Worker组的记录从
workerHostWeightsMap中消失,直到有Worker恢复可用状态。
解决方案与优化建议
临时解决方案
对于3.2.2版本,建议调整以下配置参数:
# 关闭负载保护(需评估风险)
worker.server-load-protection.enabled=false
# 增加工作线程数
worker.exec-threads=500
# 修改满负载策略为继续排队
worker.task-execute-threads-full-policy=CONTINUE
长期改进建议
从架构角度,建议在后续版本中优化以下方面:
-
资源同步逻辑改进
- 保留Worker组记录,仅标记不可用状态
- 实现增量更新而非全量刷新
-
负载状态处理优化
- 区分"组不存在"和"节点不可用"两种状态
- 对BUSY状态实现排队机制而非直接丢弃
-
心跳机制增强
- 增加心跳超时判定
- 实现分级预警(WARN/CRITICAL)
最佳实践
对于高负载环境的生产部署,建议:
-
资源监控
建立对以下指标的监控看板:- Worker节点CPU/内存使用率
- 线程池使用情况
- 任务排队数量
-
容量规划
根据业务量合理设置:# 建议值为(CPU核心数 * 2 ~ 3) worker.exec-threads=200 # 建议设置为实际CPU核心数的80% worker.server-load-protection.max-system-cpu-usage-percentage=0.8 -
高可用配置
- 每个Worker组至少配置3个节点
- 跨机架/可用区部署
总结
该问题暴露了任务调度系统在资源竞争场景下的状态同步机制缺陷。通过本次分析,我们不仅找到了3.2.x版本的解决方案,也为系统优化提供了方向。建议用户根据实际业务场景选择合适的临时方案,并关注后续版本的官方修复。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0214
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
热门内容推荐
最新内容推荐
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
469
465
暂无描述
Dockerfile
778
5.08 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
877
2.03 K
Ascend Extension for PyTorch
Python
758
968
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
697
1.4 K
昇腾LLM分布式训练框架
Python
185
231
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。
Python
2.25 K
677