Spegel项目在EKS 1.29节点上的Containerd配置问题解析

2025-07-01 19:14:30作者：何举烈Damon

在Kubernetes生态系统中，镜像缓存是提升集群效率的重要组件。Spegel作为一款轻量级的镜像缓存解决方案，近期用户反馈在AWS EKS 1.29版本节点上出现了kubelet无法启动的问题。本文将深入分析问题原因，并提供经过验证的解决方案。

问题背景

当用户尝试在最新版EKS 1.29节点（使用amazon-eks-node-1.29-v20240129 AMI）上部署Spegel时，发现kubelet服务无法正常启动。初步排查发现，这与Containerd配置的修改方式有关。

根本原因分析

经过社区与AWS团队的深入交流，确定了问题的核心原因：AWS EKS AMI从1.29版本开始，不再预先加载Containerd的基础配置文件。这一变更导致原有的配置修改方式失效。

具体来说，Spegel需要修改Containerd的两个关键配置：

设置discard_unpacked_layers = false以确保镜像层不会被过早清理
配置registry路径指向正确的证书目录

临时解决方案

在等待AWS官方修复期间，社区成员提出了有效的临时解决方案。该方法需要完整定义Containerd配置文件，并通过环境变量告知EKS启动脚本使用自定义配置：

#!/bin/bash
set -ex

cat <<-EOF > /etc/containerd/config-example.toml
version = 2
root = "/var/lib/containerd"
state = "/run/containerd"

[grpc]
address = "/run/containerd/containerd.sock"

[plugins."io.containerd.grpc.v1.cri".containerd]
default_runtime_name = "runc"
discard_unpacked_layers = false

[plugins."io.containerd.grpc.v1.cri"]
sandbox_image = "SANDBOX_IMAGE"

[plugins."io.containerd.grpc.v1.cri".registry]
config_path = "/etc/containerd/certs.d:/etc/docker/certs.d"

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
runtime_type = "io.containerd.runc.v2"

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
SystemdCgroup = true

[plugins."io.containerd.grpc.v1.cri".cni]
bin_dir = "/opt/cni/bin"
conf_dir = "/etc/cni/net.d"
EOF

cat <<-EOF > /etc/profile.d/bootstrap.sh
export CONTAINERD_CONFIG_FILE=/etc/containerd/config-example.toml
EOF

sed -i '/^set -o errexit/a\\nsource /etc/profile.d/bootstrap.sh' /etc/eks/bootstrap.sh

官方解决方案

AWS团队迅速响应，在后续版本中增加了对配置片段导入的支持。现在用户可以使用更优雅的方式配置Containerd：

#!/bin/bash
set -ex

mkdir -p /etc/containerd/config.d
cat > /etc/containerd/config.d/spegel.toml << EOL
[plugins."io.containerd.grpc.v1.cri".registry]
   config_path = "/etc/containerd/certs.d"
[plugins."io.containerd.grpc.v1.cri".containerd]
   discard_unpacked_layers = false
EOL

/etc/eks/bootstrap.sh