Apache DolphinScheduler 3.2.x 版本中Worker组随机丢失问题分析与解决方案

2025-05-17 09:35:12作者：余洋婵Anita

问题现象

在Apache DolphinScheduler 3.2.2版本的生产环境中，我们观察到任务调度系统偶尔会出现任务失败的情况。错误日志显示系统无法找到已明确存在的Worker组，报错信息如下：

Dispatch task: 看板推送任务实例同步 failed, worker group not found.
org.apache.dolphinscheduler.server.master.dispatch.exceptions.WorkerGroupNotFoundException: Cannot find worker group: Can not find worker group 数仓

值得注意的是，这些失败是随机发生的，同一个Worker组下的800多个任务中只有少数会失败，且重试后都能成功执行。这种现象不仅出现在自定义Worker组（如"数仓"）上，也会出现在默认Worker组上。

问题根源分析

通过对源代码的深入研究和日志分析，我们发现问题的根源在于Worker资源管理机制的设计：

Worker状态同步机制：Master节点会定期同步Worker节点的资源状态，当Worker节点被标记为"BUSY"状态时，系统会将该Worker从可用资源列表中移除。
资源同步实现细节：在LowerWeightHostManager类中，syncWorkerResources方法会遍历所有Worker组和节点，检查每个Worker的心跳状态。如果Worker处于BUSY状态，则不会将其加入可用资源列表。
全量更新策略：系统采用全量更新策略，每次同步都会先清空workerHostWeightsMap再重新填充。这意味着如果某个Worker组的所有节点都处于BUSY状态，该Worker组会暂时从可用列表中消失。
CPU过载保护：日志显示Worker节点CPU使用率偶尔会超过阈值（默认90%），触发系统的过载保护机制，将Worker标记为BUSY状态。

技术实现缺陷

当前的实现存在几个值得商榷的设计点：

状态表示不准确：将BUSY状态的Worker完全从资源列表中移除，导致系统误报"Worker组不存在"，实际上只是资源暂时不可用。
同步策略激进：全量清空再重建的方式会导致短暂的资源真空期，可能引发任务调度失败。
错误处理不友好：系统将资源不足的情况错误地表示为资源不存在，给问题排查带来困扰。

解决方案

针对这一问题，我们建议从以下几个方面进行优化：

短期解决方案（配置调整）

对于正在使用3.2.2版本的用户，可以采取以下临时措施缓解问题：

调整Worker配置：

# 禁用服务器负载保护
worker.server-load-protection.enabled=false
# 增加执行线程数
worker.exec-threads=500
# 修改线程满策略为继续排队
worker.task-execute-threads-full-policy=CONTINUE

增加Worker节点：分散任务负载，降低单个节点过载风险。

长期解决方案（代码优化）

建议在后续版本中改进资源管理机制：

区分资源状态：将"Worker组不存在"和"Worker资源不足"两种情况进行区分处理。
优化同步策略：改为增量更新方式，避免资源列表的完全重建。
改进错误处理：当Worker处于BUSY状态时，应明确提示资源紧张而非组不存在。

最佳实践建议

监控系统指标：密切监控Worker节点的CPU、内存和线程池使用情况，提前发现潜在问题。
合理设置阈值：根据实际硬件配置调整maxSystemCpuUsagePercentageThresholds等参数。
版本升级计划：关注社区后续版本中对此问题的修复，及时升级。
任务调度策略：考虑将重要任务分散到不同Worker组，提高系统容错能力。

总结

Apache DolphinScheduler作为优秀的分布式任务调度系统，其Worker资源管理机制在大多数场景下表现良好。本文分析的Worker组随机丢失问题揭示了在高负载场景下的一个边缘情况。通过理解其内部机制，我们可以更好地配置和使用系统，同时也为社区改进提供了方向。建议用户根据自身业务特点选择合适的解决方案，并在生产环境中充分测试配置变更的效果。

dolphinscheduler

Apache DolphinScheduler is the modern data orchestration platform. Agile to create high performance workflow with low-code

项目地址：https://gitcode.com/GitHub_Trending/dol/dolphinscheduler

登录后查看全文