Amazon EKS AMI 中containerd任务创建失败问题分析

2025-06-30 22:08:32作者：劳婵绚Shirley

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

问题现象

在使用Amazon EKS AMI时，部分节点出现了containerd任务创建失败的问题。具体表现为当尝试创建容器任务时，系统报错："failed to create containerd task: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error setting cgroup config for procHooks process: unable to freeze: unknown"。同时，节点的sshd服务也会出现频繁重启的情况。

问题背景

这个问题主要出现在特定版本的Amazon EKS AMI上，特别是v1.30.8-eks-aeac579和v1.31.3-eks-59bf375等版本。值得注意的是，该问题并非在所有节点上都会出现，而是随机发生在部分节点上，这使得问题的排查更具挑战性。

技术分析

根本原因

经过分析，这个问题与containerd版本中的TTY泄漏bug有关。在containerd v1.7.23版本中存在一个已知问题，会导致终端(TTY)资源无法正确释放。当这个问题发生时，系统尝试为新的容器进程设置cgroup配置时会失败，因为无法正确冻结相关进程。

影响范围

该问题主要影响以下场景：

使用交互式终端(TTY)运行的容器
特定版本的containerd运行时
部分特定配置的节点环境

关联现象

除了容器创建失败外，节点上的sshd服务也会出现频繁重启。这表明问题可能不仅限于容器运行时，还可能影响了系统级别的进程管理。这种关联现象可能是由于cgroup子系统的不稳定状态导致的。

解决方案

Amazon EKS团队已经在新版本的AMI中升级了containerd到v1.7.25，该版本修复了TTY泄漏的问题。对于遇到此问题的用户，建议采取以下措施：

升级到使用containerd v1.7.25或更高版本的EKS AMI
对于已经出现问题的节点，可以考虑替换为使用新版本AMI的新节点
在问题解决前，避免在受影响的节点上运行需要交互式终端的容器

最佳实践

为了避免类似问题的发生，建议EKS用户：

定期更新节点AMI到最新版本
监控容器运行时和系统服务的异常行为
在生产环境部署前，先在测试环境中验证新版本AMI的稳定性
保持对容器运行时组件(如containerd)版本变更的关注

总结

容器运行时的问题往往会影响整个节点的稳定性，如本例中不仅导致容器创建失败，还影响了sshd服务。通过及时更新到修复版本的containerd，可以有效避免此类问题的发生。Amazon EKS团队持续关注并修复这类底层运行时问题，确保用户能够获得稳定可靠的容器运行环境。

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统