Kubespray 升级过程中外部 etcd 证书问题的分析与解决

2025-05-13 09:57:39作者：沈韬淼Beryl

问题背景

在使用 Kubespray 进行 Kubernetes 集群升级时（从 1.29.x 升级到 1.30.x），当集群采用外部 etcd 部署架构时，可能会遇到一个典型的证书路径错误。具体表现为升级过程中 kubeadm 尝试访问错误的证书文件路径，导致升级失败。

问题现象

升级任务在执行"Upgrade first master"步骤时失败，错误信息显示：

FATAL: failed to create etcd client for external etcd: open /etc/ssl/etcd/ssl/node-master03.pem

值得注意的是，当升级操作在 master01 节点上执行时，kubeadm 却尝试访问 master03 的证书文件，而该文件在 master01 节点上并不存在。

根本原因分析

经过深入调查，发现问题的根源在于 Kubernetes 集群配置中的不一致性：

配置映射(ConfigMap)问题：kube-system 命名空间下的 kubeadm-config ConfigMap 中，etcd 外部连接配置错误地指向了集群中最后一个控制平面节点（如 master03）的证书，而非当前正在升级的节点证书。
证书分布问题：在外部 etcd 架构中，各 master 节点上只保留了自己的证书文件，而 ConfigMap 中的配置却要求所有节点都能访问同一个证书文件（最后一个节点的证书）。
kubeadm 行为变更：在较新版本的升级过程中，kubeadm 不再使用本地配置文件，而是直接从集群的 ConfigMap 中读取配置，这放大了配置不一致带来的问题。

解决方案

临时解决方案

对于已经出现此问题的集群，可以采取以下步骤进行修复：

检查并编辑 kubeadm-config ConfigMap：

kubectl edit cm kubeadm-config -n kube-system

修改 etcd 外部连接配置部分，将其指向第一个控制平面节点（如 master01）的证书：

etcd:
  external:
    caFile: /etc/ssl/etcd/ssl/ca.pem
    certFile: /etc/ssl/etcd/ssl/node-master01.pem
    keyFile: /etc/ssl/etcd/ssl/node-master01-key.pem

确认所有 master 节点上都存在 master01 的证书文件（通常 Kubespray 部署时会自动复制这些文件）。
重新执行升级操作。

长期解决方案

对于使用 Kubespray 部署新集群或进行升级的用户，建议：

在升级前检查 kubeadm-config ConfigMap 中的配置是否正确。
确保 Kubespray 版本是最新的，因为社区可能已经修复了相关配置生成逻辑。
对于外部 etcd 架构，考虑统一证书管理策略，确保必要的证书在所有相关节点上都可用。

技术细节深入

证书管理机制

在 Kubespray 部署的 Kubernetes 集群中，证书管理遵循以下原则：

内部 etcd：当 etcd 部署在控制平面节点上时，所有节点证书会被复制到所有 etcd 节点，因此不会出现证书找不到的问题。
外部 etcd：证书通常只部署在 etcd 节点和对应的控制平面节点上，导致当 ConfigMap 指向非本地节点证书时出现路径错误。

配置生成逻辑

Kubespray 在生成集群配置时：

使用 Jinja2 模板渲染 kubeadm-config.yaml，其中 etcd 证书路径使用 node-{{ inventory_hostname }}.pem 的变量形式。
在创建 ConfigMap 时，由于处理顺序的原因，可能会使用最后一个控制平面节点的 hostname 作为证书文件名。