Kubespray部署Kubernetes集群时containerd 2.0.2版本静态Pod异常问题分析

2025-05-13 19:10:03作者：管翌锬

问题现象

在使用Kubespray最新版本部署Kubernetes集群时，发现所有静态Pod（包括kube-apiserver、kube-scheduler和kube-controller-manager）都进入了CrashLoopBackOff状态。集群节点显示为NotReady状态，且kubectl命令无法正常连接API Server。

通过检查发现，containerd的运行时版本为2.0.2，而生成的config.toml配置文件使用了版本3的格式，这导致了兼容性问题。具体表现为：

静态Pod不断重启（7-8次重启）
kube-proxy组件出现CrashLoopBackOff
CoreDNS等关键组件处于Pending状态
节点无法加入集群（NotReady状态）

根本原因分析

该问题主要由以下因素导致：

版本兼容性问题：containerd 2.0.2版本与v3格式的配置文件不完全兼容。Kubespray生成的config.toml使用了v3格式，但2.0.2版本的containerd对此支持不完善。
配置参数不匹配：在containerd 2.0.2中，某些配置项的处理方式与v3规范存在差异，特别是CRI插件部分的配置。
运行时参数缺失：检查发现生成的配置中缺少一些关键运行时参数，如cgroup驱动设置等。

技术细节

从日志分析可以看到以下关键错误信息：

"must be in running or unknown state, current state CONTAINER_EXITED"

这表明容器不断异常退出。深入分析containerd日志发现，容器在启动后立即退出，返回状态码137（通常表示内存不足或进程被杀死）。

配置文件中的关键问题点：

使用了version = 3的声明，但2.0.2版本的containerd对此支持有限
运行时配置部分缺少必要的cgroup驱动设置
某些插件参数格式不符合2.0.2版本的预期

解决方案

针对这个问题，可以采取以下解决方案：

方案一：升级containerd版本

推荐将containerd升级到最新稳定版本（建议3.0+），这些版本完全支持v3格式的配置文件。

方案二：调整配置文件格式

如果必须使用containerd 2.0.2，需要修改config.toml：

移除version = 3声明
调整插件配置结构，使用2.0.2兼容的格式
明确设置cgroup驱动：

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
  SystemdCgroup = true

方案三：修改Kubespray配置

在Kubespray的group_vars中设置：

containerd_config_version: "2"
containerd_cgroup_driver: "systemd"

实施建议

对于生产环境，建议采用以下步骤：

先升级containerd到兼容版本
清理现有配置并重新生成
重置Kubernetes集群并重新部署
验证各组件状态

对于已经出现问题的集群，可以手动修改/etc/containerd/config.toml后，执行：

systemctl restart containerd
kubeadm reset -f
kubeadm init

经验总结

容器运行时版本与Kubernetes版本的兼容性至关重要
生产环境部署前应充分测试各组件版本组合
配置文件格式变更时需注意向后兼容性
日志分析是诊断此类问题的关键手段

登录后查看全文