Amazon EKS AMI中Containerd 1.7.27版本核心转储泄漏问题分析

2025-06-30 20:03:19作者：冯梦姬Eddie

在AWS EKS环境中，从Amazon EKS AMI v20250317升级到v20250403版本后，用户报告了一个严重问题：节点上出现了大量核心转储文件（core dump），导致临时存储空间被耗尽并引发非关键Pod被驱逐。这个问题与Containerd从1.7.25升级到1.7.27版本有关。

问题现象

升级后，系统根目录下会不断生成大量核心转储文件，每个文件大小约100MB。这些文件会快速消耗节点的临时存储空间。通过分析核心转储文件，发现崩溃进程是ctr命令行工具，错误信号为SIGSYS（错误的系统调用）。

环境特征

操作系统：Amazon Linux 2（内核版本5.10.234-225.921.amzn2.x86_64）
Containerd版本：1.7.27（问题版本），1.7.25（正常版本）
Runc版本：1.1.14
Kubernetes版本：1.30和1.31
实例类型：m5.2xlarge

问题排查过程

初步分析

核心转储显示崩溃命令为：

/usr/bin/ctr -a /run/containerd/containerd.sock -n k8s.io c info <容器短ID>

有趣的是，直接手动执行相同命令不会触发崩溃，且命令中的容器短ID在实际系统中需要通过完整ID才能查询到。

版本回退测试

回退到Containerd 1.7.25版本后问题消失，确认问题与1.7.26/1.7.27版本引入的变更有关。通过分析版本差异，最初怀疑与containerd/nri的更新有关，但测试排除此可能性。

深入调查

尝试使用strace跟踪ctr命令执行，发现：

当使用包装脚本拦截ctr调用时，核心转储不再产生
核心转储似乎与容器启动过程相关
系统配置已禁用核心转储（ulimit -c=0），但转储仍被创建

进一步发现Amazon Linux 2通过sysctl而非systemd管理核心转储，需使用以下命令完全禁用：

sysctl -w kernel.core_pattern=|/bin/false

技术背景

核心转储机制

核心转储是操作系统在程序异常终止时保存的内存映像，用于调试。在Linux中，其行为由以下因素控制：

ulimit -c：用户级限制
/proc/sys/kernel/core_pattern：系统级配置
文件系统权限和空间

Containerd架构

Containerd作为容器运行时，通过ctr工具提供命令行接口。在Kubernetes环境中，kubelet通过CRI插件与Containerd交互，某些操作可能间接调用ctr。

解决方案

目前确认的临时解决方案包括：

降级到Containerd 1.7.25版本
彻底禁用系统核心转储功能
设置定期清理任务删除已产生的转储文件

长期解决方案需要Containerd社区修复1.7.27版本中的相关问题。用户应关注后续版本更新。

最佳实践建议

对于EKS用户，建议：

升级前在测试环境验证新AMI版本
监控节点存储使用情况，特别是/tmp和根目录
考虑使用daemonset定期清理临时文件
保持对核心系统组件（如containerd、runc）版本变更的关注

此问题凸显了容器运行时升级可能带来的隐性风险，特别是在生产环境中。系统管理员应当建立完善的升级验证流程和监控机制，确保及时发现和解决类似问题。

amazon-eks-ami

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

Amazon EKS AMI中Containerd 1.7.27版本核心转储泄漏问题分析

问题现象

环境特征

问题排查过程