Amazon VPC CNI v1.16.3版本中CPU使用率异常问题分析

2025-07-02 23:38:16作者：韦蓉瑛

amazon-vpc-cni-k8s

Networking plugin repository for pod networking in Kubernetes using Elastic Network Interfaces on AWS

项目地址：https://gitcode.com/gh_mirrors/am/amazon-vpc-cni-k8s

Amazon VPC CNI（Container Network Interface）是AWS EKS集群中负责Pod网络的核心组件。近期发布的v1.16.3版本在某些特定场景下出现了严重的CPU使用率异常问题，本文将深入分析该问题的成因、影响范围以及解决方案。

问题现象

在v1.16.3版本中，用户报告在中等规格的EC2实例（如t3.medium、c6g.medium等）上，aws-node Pod的CPU使用率异常升高，甚至达到100%以上。通过日志分析发现，ipamd组件不断输出以下日志内容：

{"level":"debug","ts":"2024-02-22T21:34:38.560Z","caller":"ipamd/ipamd.go:779","msg":"Node found \"ip-10-146-63-142.ec2.internal\" - no of taints - 0"}
{"level":"debug","ts":"2024-02-22T21:34:38.560Z","caller":"ipamd/ipamd.go:658","msg":"Skipping ENI allocation as the max ENI limit is already reached"}
{"level":"debug","ts":"2024-02-22T21:34:38.560Z","caller":"ipamd/ipamd.go:658","msg":"Starting to increase pool size"}

这种日志循环输出表明ipamd组件陷入了某种死循环状态，导致CPU资源被大量消耗。

问题根源

经过开发团队分析，问题出在IP地址管理(IPAM)的快速扩展逻辑中。当节点无法再附加更多ENI（弹性网络接口）时，代码会进入一个无限循环，不断尝试分配IP地址但始终失败。

具体来说，v1.16.3版本引入的逻辑旨在快速满足IP地址需求，但当节点达到ENI上限时，缺乏适当的退出机制，导致循环持续执行。这种情况在中等规格实例上尤为明显，因为这些实例的ENI和IP地址配额相对较小。

影响范围

该问题主要影响以下环境：

使用中等规格EC2实例的集群（如t3.medium、c6g.medium、m5.large等）
节点接近或达到最大Pod数量限制时
使用Bottlerocket OS的节点可能存在额外的maxPods配置问题

值得注意的是，问题并非在所有实例类型上都会出现，大型实例由于资源充足，通常不会触发此问题。

临时解决方案

在官方修复版本发布前，建议采取以下措施：

降级到v1.16.2版本
对于使用Terraform管理的集群，可以显式指定addon版本
监控aws-node Pod的CPU使用情况，必要时重启异常Pod

官方修复

AWS团队迅速响应，在v1.16.4版本中修复了此问题。主要改进包括：

增加了ENI达到上限时的正确退出逻辑
优化了IP地址分配流程
防止类似死循环情况再次发生

v1.16.4版本发布后，建议所有受影响的用户尽快升级。该版本通过正常的EKS管理插件渠道分发，通常在发布后24-48小时内可在所有AWS区域使用。

最佳实践

为避免类似问题，建议用户：

在升级关键网络组件前，先在测试环境验证
监控集群中aws-node Pod的资源使用情况
了解不同EC2实例类型的ENI和IP地址配额限制
确保节点的maxPods配置与实际网络容量匹配

通过这次事件，我们可以看到AWS开源团队对问题的快速响应和解决能力，同时也提醒我们在生产环境中实施变更时需要谨慎，并做好回滚准备。

amazon-vpc-cni-k8s

Networking plugin repository for pod networking in Kubernetes using Elastic Network Interfaces on AWS

项目地址：https://gitcode.com/gh_mirrors/am/amazon-vpc-cni-k8s

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架