Kubeblocks中MySQL集群所有Pod显示为Primary状态问题分析

2025-06-30 12:36:27作者：侯霆垣

问题现象

在使用Kubeblocks部署MySQL集群时，发现一个异常现象：当创建一个包含2个副本的MySQL集群后，两个Pod实例都被标记为"primary"角色。正常情况下，MySQL主从复制架构中应该只有一个主节点(Primary)，其余为从节点(Secondary)。

通过kbcli cluster list-instances命令查看集群实例状态，发现两个Pod都显示为primary角色：

NAME                    NAMESPACE   CLUSTER         COMPONENT   STATUS    ROLE      ACCESSMODE   AZ       CPU(REQUEST/LIMIT)   MEMORY(REQUEST/LIMIT)   STORAGE     NODE                        CREATED-TIME                 
mysql-cluster-mysql-0   default     mysql-cluster   mysql       Running   primary   <none>       <none>   500m / 500m          512Mi / 512Mi           data:20Gi   disk-full-test/10.3.0.4     Dec 13,2024 13:59 UTC+0800   
mysql-cluster-mysql-1   default     mysql-cluster   mysql       Running   primary   <none>       <none>   500m / 500m          512Mi / 512Mi           data:20Gi   disk-full-test-1/10.3.0.6   Dec 13,2024 13:59 UTC+0800

技术背景

在Kubeblocks中，MySQL集群的部署和管理是通过Operator模式实现的。Operator会创建并管理一组Pod，这些Pod通过Kubernetes的StatefulSet控制器进行编排。每个Pod中运行着MySQL数据库实例，并通过Kubeblocks提供的lorry组件进行角色探测和管理。

正常情况下，MySQL集群应该自动形成一个主从复制拓扑结构，其中：

一个Pod被选举为主节点(Primary)，负责处理所有写操作
其他Pod作为从节点(Secondary)，从主节点同步数据

问题分析

通过查看Pod日志，我们可以发现问题的根源：

第一个Pod(mysql-cluster-mysql-0)启动时：
- 检测到没有现有的leader配置
- 将自己声明为primary角色
- 发送事件通知集群状态变更
第二个Pod(mysql-cluster-mysql-1)启动时：
- 检测到已经存在一个leader(mysql-cluster-mysql-0)
- 但是仍然将自己声明为primary角色
- 发送事件通知集群状态变更

关键日志片段：

DEBUG checkrole check member {"member": "mysql-cluster-mysql-0", "role": "primary"}
INFO checkrole there is a another leader {"member": "mysql-cluster-mysql-0"}
INFO checkrole another leader's lorry is online, just ignore {"member": "mysql-cluster-mysql-0"}
DEBUG checkrole check member {"member": "mysql-cluster-mysql-1", "role": ""}

这表明lorry组件虽然检测到了另一个主节点存在，但仍然将自己的角色设置为primary，这显然是不符合预期的行为。