Apache DolphinScheduler 高可用架构中的故障转移优化设计

2025-05-19 21:01:49作者：农烁颖Land

背景与问题分析

在分布式任务调度系统Apache DolphinScheduler的Master/Worker架构中，节点故障转移是一个关键的高可用保障机制。当前实现中存在一个潜在问题：当节点与注册中心（如Zookeeper）发生短暂断开连接后又重新连接时，可能导致重复的工作流/任务执行。

这种情况通常发生在网络波动或注册中心短暂不可用时。例如使用Curator客户端连接Zookeeper时，如果会话超时设置为120秒，服务器在80秒内检测到心跳失败后会进入挂起状态。当它成功重新连接到另一个Zookeeper节点后，服务会继续工作。但在这个过程中，其他节点可能已经收到了该节点的断开事件，从而触发了故障转移流程。

现有机制缺陷

当前实现的主要问题在于：

短暂断开的节点重新连接后，系统无法区分这是"新生"节点还是"已死亡"节点
可能导致同一个工作流或任务被多个节点同时处理
资源可能出现重复分配，影响系统稳定性和数据一致性

解决方案设计

核心思想

引入FAILOVER_FINISH_NODES注册表机制，通过唯一标识确保已被故障转移的节点不会再次参与工作。

具体实现方案

节点唯一标识：每个服务器使用"地址+服务器启动时间"作为唯一标识符
故障转移记录：当一个节点被成功故障转移后，其标识会被记录在FAILOVER_FINISH_NODES路径下
节点自检机制：节点重新连接时，会检查自己是否已被记录在FAILOVER_FINISH_NODES中
自动终止：如果发现自身已被标记为故障转移完成，则该节点会自动终止运行

技术实现细节

注册中心结构：
- 新增FAILOVER_FINISH_NODES持久化节点
- 子节点为已被故障转移的节点标识
节点注册流程：
- 节点启动时记录启动时间戳
- 注册时同时写入常规节点信息和启动时间
故障转移流程：
- 检测到节点失联后，先检查FAILOVER_FINISH_NODES
- 确认需要故障转移后，执行转移操作
- 转移完成后将原节点标识写入FAILOVER_FINISH_NODES
节点重连处理：
- 节点重新连接时首先查询FAILOVER_FINISH_NODES
- 如果发现自身标识存在，则主动终止服务

优势与价值

避免重复执行：彻底解决了因节点短暂断开导致的重复工作流/任务问题
数据一致性保障：确保每个任务只被一个节点处理
系统稳定性提升：防止资源冲突和状态混乱
明确的节点生命周期：使节点状态转换更加清晰可控

实际应用场景

这一改进特别适合以下场景：

云环境中的网络波动情况
注册中心集群的节点切换
计划内的维护操作导致的短暂断开
资源紧张时的节点假死情况

总结

通过在Apache DolphinScheduler中引入FAILOVER_FINISH_NODES机制，我们建立了一个更加健壮的故障转移系统。这一设计不仅解决了重复执行的核心问题，还为系统的可靠性设立了新的标准。节点唯一标识和主动终止机制的结合，确保了分布式环境下节点生命周期的精确控制，是分布式系统高可用设计的一个典范。

dolphinscheduler

Apache DolphinScheduler is the modern data orchestration platform. Agile to create high performance workflow with low-code

项目地址：https://gitcode.com/gh_mirrors/dolp/dolphinscheduler

登录后查看全文