ClickHouse Operator中使用ClickHouse-Keeper替代ZooKeeper的配置要点

2025-07-04 12:16:27作者：龚格成

在分布式ClickHouse集群中，协调服务是保证数据一致性的关键组件。传统方案通常使用ZooKeeper作为协调服务，而ClickHouse-Keeper作为原生替代方案，在兼容ZooKeeper协议的同时提供了更好的性能表现。但在实际部署过程中，开发者可能会遇到节点不可发现的问题。

核心问题现象

当用户尝试将ClickHouse-Keeper作为协调服务时，配置了三个节点的端点地址后，ClickHouse客户端返回错误代码999，提示"无法使用任何提供的ZooKeeper节点"。值得注意的是，相同的配置格式在使用原生ZooKeeper时却能正常工作。

问题根源分析

问题的本质在于服务发现机制的理解偏差。ClickHouse-Keeper虽然兼容ZooKeeper协议，但其服务发现机制有所区别：

端点模式与集群模式：直接指定各个keeper节点的完整DNS名称（如chk-simple-3-0.chk-simple-3.zoo3ns.svc.cluster.local）属于端点级访问模式，这种模式在某些网络环境下可能存在连通性问题。
服务发现机制：Kubernetes中，Service资源会自动处理后端Pod的负载均衡和故障转移。直接访问Pod级别的端点会绕过Service提供的这些能力。

解决方案

正确的配置方式是使用Kubernetes Service的集群DNS名称，而非单个Pod的端点地址：

zookeeper:
  nodes:
    - host: chk-simple-3.zoo3ns.svc.cluster.local
      port: 2181

这种配置的优势在于：

通过Service抽象层自动处理节点发现
内置负载均衡机制
更符合Kubernetes的服务访问最佳实践
简化配置，只需维护一个入口点

实现原理深度解析

在Kubernetes环境中，Service资源会创建：

稳定的虚拟IP（ClusterIP）
对应的DNS记录
自动更新的Endpoint列表

当使用Service名称访问时：

请求首先到达Service虚拟IP
kube-proxy根据规则将流量转发到健康的后端Pod
自动处理节点故障和重新调度

相比之下，直接指定Pod地址的方式：

需要维护所有节点地址
无法自动处理Pod重建后的地址变更
缺乏内置的负载均衡机制

最佳实践建议

对于生产环境部署，建议：

始终使用Service名称进行服务发现
为ClickHouse-Keeper配置适当的资源请求和限制
考虑配置Pod反亲和性以提高可用性
监控keeper节点的健康状态
定期测试故障转移能力

通过采用这种配置方式，开发者可以充分发挥ClickHouse-Keeper的性能优势，同时保证集群的高可用性和可维护性。这种方案不仅解决了初始的连接问题，还为未来的扩展和维护打下了良好基础。

clickhouse-operator

Altinity Kubernetes Operator for ClickHouse creates, configures and manages ClickHouse clusters running on Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/cl/clickhouse-operator

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

Python

260

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.03 K

475

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

646

255