Amazon EKS AMI 中 containerd 1.7.2x 版本与 AWS VPC CNI 兼容性问题分析

2025-06-30 12:39:52作者：段琳惟

问题背景

在 Amazon EKS 环境中，当用户将节点升级到 Kubernetes 1.29 版本并使用 containerd 1.7.22 或更高版本时，可能会遇到 VPC CNI 插件（aws-node）持续崩溃重启的问题。这个问题表现为节点无法进入 Ready 状态，同时 containerd 日志中会显示"cannot exec in a stopped container"的错误信息。

问题现象

当使用 containerd 1.7.22 或更高版本的 AMI 时，用户会观察到以下典型症状：

aws-node Pod 处于 CrashLoopBackOff 状态
节点无法达到 Ready 状态

containerd 日志中出现如下错误：

failed to exec in container: failed to start exec: OCI runtime exec failed: exec failed: cannot exec in a stopped container: unknown

根本原因分析

经过深入调查，发现这个问题与 containerd 1.7.20 版本引入的行为变更有关。具体来说：

containerd 1.7.20 变更：该版本修改了处理 resolv.conf 文件的行为。在之前版本中，如果指定的 resolv.conf 文件为空，containerd 会回退使用主机的 /etc/resolv.conf。但从 1.7.20 开始，这一回退行为被移除。
用户配置影响：许多用户在 EKS 节点的 bootstrap.sh 脚本中通过 --kubelet-extra-args 参数传递了 --resolv-conf 标志，并指向一个空文件。这种配置在旧版本中能正常工作，但在新版本中会导致 DNS 解析失败。
连锁反应：DNS 解析失败会影响 VPC CNI 插件的正常运行，导致 aws-node Pod 无法完成必要的网络配置，进而引发崩溃循环。

解决方案

针对此问题，推荐采取以下解决方案：

移除过时的 resolv-conf 配置：
- 检查节点的用户数据(userdata)配置
- 删除 bootstrap.sh 中 --kubelet-extra-args 参数里的 --resolv-conf 标志
- 确保不再依赖这一已弃用的配置项
替代方案：
- 如果需要自定义 DNS 配置，应该直接修改主机的 /etc/resolv.conf
- 或者使用更现代的 DNS 配置方法，如 systemd-resolved
临时回退方案：
- 如果必须暂时保持原有行为，可以降级到 containerd 1.7.19 或更早版本
- 但这只是临时解决方案，不建议长期使用