ClickHouse Operator 中多分片集群Pod重建卡顿问题分析与解决

2025-07-04 02:43:10作者：何举烈Damon

ClickHouse Operator 是一个用于在Kubernetes上管理ClickHouse集群的工具。近期在0.23.3版本中发现了一个关键问题：当集群设置超过2个分片和2个副本时（例如4分片2副本），在进行Pod资源变更操作时会出现卡顿现象。

问题现象

在特定设置的ClickHouse集群中，当执行以下操作时会出现异常：

修改Pod资源限制（如CPU/内存）
调整磁盘大小
其他设置变更

操作会部分完成（通常处理4个Pod后），然后进入等待状态，直到达到reconcile.statefulSet.update.timeout设置的超时时间（默认30分钟）才会继续。这种问题在2分片2副本的设置下不会出现。

问题根源

经过深入分析，发现问题的核心原因在于：

端口设置冲突：当用户自定义了非标准端口（如8124替代默认8123）但没有正确设置对应的Service模板时，会导致健康检查失败。
并发处理限制：Operator在处理大规模集群时，默认的并发控制参数可能不足，特别是在reconcile.host.exclude设置为true时，等待主机从集群中排除的过程容易出现阻塞。
健康检查机制：Liveness/Readiness探针依赖于默认端口设置，当端口变更后，健康检查会持续失败，导致Operator误判节点状态。

解决方案

临时解决方案

如果暂时无法升级，可采用以下两种方法：

手动干预：当Operator卡顿时，手动删除处于WAIT状态的Pod，触发Operator继续处理。
设置调整：修改Operator设置，将reconcile.host.exclude设为false。但需要注意：
- 这会跳过等待主机从集群排除的步骤
- 可能影响集群数据一致性
- 不建议在生产环境长期使用

正确设置建议

对于需要自定义端口的场景，必须同时设置Service模板：

templates:
  serviceTemplates:
    - name: svc-template
      spec:
        type: ClusterIP
        ports: 
          - name: http
            port: 8124
          - name: tcp
            port: 9001
          - name: interserver
            port: 9010
defaults:
  templates:
    replicaServiceTemplate: svc-template