Kubespray部署Kubernetes集群时containerd 2.0.2版本静态Pod异常问题分析

2025-05-13 11:33:53作者：申梦珏Efrain

在基于Kubespray最新版本部署Kubernetes集群时，当容器运行时选择containerd 2.0.2版本，会出现静态Pod持续CrashLoopBackOff的异常现象。该问题主要表现为控制平面组件（kube-apiserver、kube-controller-manager、kube-scheduler）以及kube-proxy等核心Pod无法稳定运行，导致整个集群处于不可用状态。

问题现象深度解析

通过现场状态检查可观察到以下典型症状：

控制平面组件虽然显示为Running状态，但存在频繁重启（7-8次重启记录）
kube-proxy组件直接进入CrashLoopBackOff状态
核心DNS服务（coredns）持续处于Pending状态
kubectl命令无法正常连接API Server（连接6443端口被拒绝）

深入分析containerd日志可见大量容器异常退出记录，关键错误信息包括：

容器状态异常从"CONTAINER_EXITED"退出
进程返回码137（通常表示内存不足被OOM Killer终止）
大量TTL协议通信失败记录

根本原因定位

经过技术分析，确定问题根源在于Kubespray生成的containerd配置文件(config.toml)版本兼容性问题：

版本声明冲突：配置文件头部显式声明version = 3，但实际运行时使用的是containerd 2.0.2版本
运行时配置不匹配：v2与v3版本的配置结构存在显著差异，特别是CRI插件配置部分
资源限制缺失：默认配置未设置合理的CPU/内存限制，导致控制平面组件频繁被OOM Killer终止

解决方案与最佳实践

对于使用containerd 2.0.x版本的环境，建议采用以下配置调整：

版本声明修正：

version = 2

CRI插件配置优化：

[plugins.cri]
  sandbox_image = "registry.k8s.io/pause:3.9"
  [plugins.cri.containerd]
    default_runtime_name = "runc"
    [plugins.cri.containerd.runtimes.runc]
      runtime_type = "io.containerd.runtime.v1.linux"