Waterdrop项目中使用HDFS HA配置Checkpoint的注意事项

2025-05-27 06:53:09作者：曹令琨Iris

项目地址：https://gitcode.com/gh_mirrors/seat/seatunnel

背景介绍

在分布式数据处理系统中，Checkpoint机制是保证任务容错性的重要功能。Waterdrop作为一款开源的数据处理工具，支持将Checkpoint信息持久化存储到HDFS上。当使用HDFS NameNode高可用(HA)模式时，需要特别注意配置文件的正确性，否则会导致任务执行失败。

问题现象

当用户尝试为Waterdrop配置HDFS HA作为Checkpoint存储后端时，任务启动时报错"java.net.UnknownHostException: sybdata"。这表明系统无法解析配置的HDFS服务名称。

根本原因分析

通过错误堆栈可以定位到问题出在HDFS客户端初始化阶段。具体原因是HDFS HA配置中的NameNode RPC地址格式不正确。在Waterdrop的配置文件中，用户错误地将NameNode地址配置为：

seatunnel.hadoop.dfs.namenode.rpc-address.sybdatann1: h77005:8020
seatunnel.hadoop.dfs.namenode.rpc-address.sybdatann2: h77006:8020

这种格式不符合HDFS HA的命名规范，正确的格式应该使用点(.)作为分隔符：

seatunnel.hadoop.dfs.namenode.rpc-address.sybdata.nn1: h77005:8020
seatunnel.hadoop.dfs.namenode.rpc-address.sybdata.nn2: h77006:8020

解决方案

要解决这个问题，需要按照HDFS HA的标准命名规范修改配置文件。以下是完整的正确配置示例：

seatunnel:
  engine:
    checkpoint:
      storage:
        type: hdfs
        max-retained: 3
        plugin-config:
          namespace: /seatunnel/checkpoint/
          storage.type: hdfs
          fs.defaultFS: hdfs://sybdata
          seatunnel.hadoop.dfs.nameservices: sybdata
          seatunnel.hadoop.dfs.ha.namenodes.sybdata: nn1,nn2
          seatunnel.hadoop.dfs.namenode.rpc-address.sybdata.nn1: h77005:8020
          seatunnel.hadoop.dfs.namenode.rpc-address.sybdata.nn2: h77006:8020
          seatunnel.hadoop.dfs.client.failover.proxy.provider.sybdata: org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

配置要点说明

命名服务配置：seatunnel.hadoop.dfs.nameservices定义了HDFS HA集群的逻辑名称，这里使用"sybdata"。
NameNode列表：seatunnel.hadoop.dfs.ha.namenodes.sybdata指定了该命名服务下的NameNode标识符，用逗号分隔。
RPC地址格式：每个NameNode的RPC地址必须采用命名服务名称.NameNode标识符的格式，如"sybdata.nn1"。
故障转移代理：必须配置正确的故障转移代理类ConfiguredFailoverProxyProvider。