Amazon EKS AMI中AL2内核版本导致cgroup/blkio指标丢失问题分析

2025-06-30 15:36:27作者：晏闻田Solitary

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

问题背景

在Amazon EKS环境中，使用Amazon Linux 2(AL2)作为节点操作系统时，部分用户发现当内核版本升级到5.10.236-227.928.amzn2.x86_64及更高版本后，容器文件系统I/O监控指标(container_fs_*)全部显示为0。这些指标对于监控容器磁盘I/O性能至关重要，直接影响用户对容器工作负载的性能分析和故障排查能力。

问题现象

受影响的AL2 AMI版本包括：

v20250501
v20250505
v20250519

在这些版本中，通过cAdvisor获取的容器磁盘I/O指标如container_fs_reads_total等全部显示为0值。通过直接检查cgroup文件系统，可以确认在受影响的版本中，/sys/fs/cgroup/blkio/blkio.throttle.io_serviced文件中的统计信息也全部为0。

技术分析

这个问题源于AL2 5.10内核版本中的一个bug。在Linux系统中，cgroup的blkio子系统负责收集块设备I/O统计信息，这些信息被容器监控工具如cAdvisor用来提供容器级别的磁盘I/O指标。

在正常工作的内核版本(如5.10.235-227.919.amzn2.x86_64)中，系统会正确收集和展示这些统计信息。而在有问题的内核版本中，虽然cgroup的blkio子系统仍然存在，但无法正确收集和展示I/O统计信息。

影响范围

该问题主要影响：

使用AL2作为节点操作系统的EKS集群
内核版本为5.10.236-227.928.amzn2.x86_64及更高版本
依赖cAdvisor容器磁盘I/O指标进行监控和告警的系统

解决方案

Amazon Linux团队已经确认该问题，并在后续的AL2 5.10内核版本中修复了此问题。用户可以通过以下方式解决：

等待节点自动升级到包含修复的内核版本
手动将节点替换为使用已修复内核版本的AMI
对于关键业务系统，可考虑临时回退到已知正常工作的内核版本

最佳实践建议

对于生产环境中的EKS集群，建议：

在升级内核版本前，先在测试环境中验证关键监控指标是否正常
建立多维度监控，不仅依赖cAdvisor提供的容器磁盘I/O指标
关注Amazon Linux的安全公告和更新日志，及时了解已知问题和修复情况
对于关键业务系统，考虑实施渐进式升级策略，避免大规模同时升级

总结

内核级别的bug可能会影响监控系统的正常工作，这次AL2内核版本导致的cgroup/blkio指标丢失问题提醒我们，在容器化环境中，底层系统的稳定性同样重要。Amazon Linux团队已经快速响应并修复了此问题，体现了其对EKS生态系统的持续投入和支持。

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统