ClickHouse-Operator跨区域部署中的外部IP配置问题解析

2025-07-04 15:03:05作者：凌朦慧Richard

问题背景

在使用ClickHouse-Operator和Azure Kubernetes Service(AKS)部署ClickHouse集群时，用户尝试配置跨区域(跨AKS)的ClickHouse集群，希望通过外部IP地址实现副本间的通信。具体场景是部署一个2分片×2副本的集群，每个副本都配置了独立的负载均衡服务和唯一的外部IP地址。

问题现象

当在remote_servers.xml配置中使用外部IP地址时，发现以下问题：

分布式查询无法正常工作（例如创建分布式数据库的语句失败）
ReplicatedMergeTree表引擎无法同步数据
使用主机名或Pod IP时则工作正常

技术分析

1. 配置差异分析

在远程服务器配置中混合使用了两种类型的地址：

内部DNS名称：如chi-p1-testcluster-0-0-0.chi-p1-testcluster-0-0.clickhouse1.svc.cluster.local
外部IP地址：如10.224.0.192

2. 根本原因

经过分析，这个问题实际上涉及两个独立的技术点：

分布式查询问题：由remote_servers.xml配置控制
副本同步问题：由interserver_http_host参数控制，与remote_servers.xml无关

3. 副本同步的关键配置

要实现跨区域的副本同步，必须正确配置以下参数：

interserver_http_host：必须设置为副本间通信的可达地址
interserver_http_port：默认为9009，必须确保该端口可访问
interserver_http_credentials：副本间的认证信息

4. DNS解析问题

从日志中可以看到明显的DNS解析失败：

DNSResolver: Cannot resolve host (chi-p1-testcluster-1-1-0.chi-p1-testcluster-1-1.clickhouse1.svc.cluster.local)

这表明集群内部DNS解析存在问题，会影响副本间的通信。

解决方案

1. 针对分布式查询

确保remote_servers.xml中所有节点使用一致的可达地址。在跨AKS场景下，建议：

统一使用外部IP地址或统一使用FQDN
确保所有地址在集群间可路由
检查网络策略是否允许跨AKS通信

2. 针对副本同步

显式设置interserver_http_host为外部可达地址
确保9009端口在负载均衡器上开放
配置正确的认证信息

3. 配置示例

<interserver_http_host>10.225.0.10</interserver_http_host>
<interserver_http_port>9009</interserver_http_port>
<interserver_http_credentials>
  <user>test</user>
  <password>test123</password>
</interserver_http_credentials>