OKD 4.15 集群证书信任问题深度分析与解决方案

2025-07-07 03:13:34作者：庞队千Virginia

问题背景

在OKD 4.15版本中，部分用户报告了集群在升级后出现节点不可用的情况。具体表现为节点状态变为NotReady，新Pod创建失败，错误信息显示API内部端点（api-int）的证书验证失败。这一问题主要影响从早期版本（如4.6）升级而来的集群。

根本原因分析

该问题的核心在于证书信任链的变更：

证书轮换异常：api-int端点的负载均衡器服务证书本应具有10年有效期，但在升级到4.15后异常触发了证书轮换，生成了新的CA证书。
信任传播失败：节点kubelet组件未能自动获取新的CA证书，导致无法验证api-int端点的证书合法性。这主要是因为：
- 旧版本创建的集群中，kubelet的kubeconfig文件未自动更新CA证书
- Machine Config Operator未能正确传播新的信任链到所有节点
级联效应：当第一个节点因此故障后，依赖api-int通信的组件（如Multus CNI）也会相继失败，最终导致整个集群网络功能瘫痪。

影响范围

主要影响从OKD 4.6或更早版本升级到4.15的集群
新安装的4.15集群不受影响
从4.7及以上版本升级的集群风险较低

解决方案

临时修复措施

对于已出现问题的集群，可执行以下手动修复步骤：

更新节点kubeconfig：

# 从openshift-kube-apiserver-operator命名空间获取当前CA
CURRENT_CA=$(oc get cm -n openshift-kube-apiserver-operator loadbalancer-serving-ca -o jsonpath='{.data.ca-bundle\.crt}')

# 更新节点上的kubeconfig
echo "$CURRENT_CA" > /etc/kubernetes/kubeconfig-ca.crt
sed -i '/certificate-authority-data:/d' /etc/kubernetes/kubeconfig
echo "    certificate-authority-data: $(base64 -w0 /etc/kubernetes/kubeconfig-ca.crt)" >> /etc/kubernetes/kubeconfig

更新Multus信任存储：

oc patch cm -n openshift-multus kube-root-ca.crt --type merge -p '{"data":{"ca.crt":"'"$(oc get cm -n openshift-kube-apiserver-operator loadbalancer-serving-ca -o jsonpath='{.data.ca-bundle\.crt}')"'"}}'

重启受影响组件：

systemctl restart kubelet
oc delete pod -n openshift-multus --all

永久解决方案

OKD项目已在4.15.0-0.okd-2024-03-10-010116版本中通过以下改进彻底修复该问题：

修正了证书轮换逻辑，确保api-int CA证书保持10年有效期
增强了Machine Config Operator的证书传播机制
添加了kubeconfig自动更新功能

最佳实践建议

升级策略：
- 对于运行4.6或更早版本的集群，建议先升级到4.14，再升级到4.15
- 升级后密切监控证书有效期和节点状态
监控配置：
- 添加对以下证书的监控：
  - openshift-kube-apiserver-operator命名空间中的loadbalancer-serving-ca ConfigMap
  - 各节点的/etc/kubernetes/kubeconfig文件
灾备准备：
- 定期备份关键证书和kubeconfig文件
- 准备上述修复步骤的自动化脚本