Amazon EKS AMI 中 Cilium CNI 与 AL2023 的兼容性问题解析

2025-06-30 01:38:59作者：傅爽业Veleda

问题背景

在 Kubernetes 集群运维过程中，网络组件的选择与操作系统版本的兼容性至关重要。近期有用户报告在 Amazon EKS 环境中，将节点操作系统从 Amazon Linux 2 升级到 Amazon Linux 2023 后，使用 Cilium 作为容器网络接口(CNI)时出现了网络连接异常。

现象描述

具体表现为：

当节点部署在公有子网(通过互联网网关连接)时，Pod 无法访问外部互联网，也无法与集群内其他 Pod 通信
通过 SSM 直接连接到节点本身，节点可以正常访问外部网络
当节点部署在私有子网(通过 NAT 网关连接)时，网络连接表现正常

环境配置

AWS 区域：亚太东南1区
实例类型：t3.large
Kubernetes 集群版本：v1.30.11-eks-bcf3d70
节点 Kubernetes 版本：v1.30.11-eks-473151a
AMI 版本：Amazon Linux 2023.7.20250428
Cilium 版本：v1.15

问题分析

经过深入调查，发现此问题与 Cilium 版本和 Kubernetes 版本的兼容性直接相关。关键发现包括：

在相同子网中，Amazon Linux 2 节点上的 Pod 可以正常访问外部网络，而 Amazon Linux 2023 节点上的 Pod 则无法连接
问题在 Cilium v1.15 版本上持续存在
升级到 Cilium v1.17.4 后问题得到解决

根本原因

问题的核心在于 Cilium v1.15 版本官方并未将 Kubernetes v1.30 列入支持矩阵。Cilium 对不同 Kubernetes 版本的支持策略如下：

v1.15：不支持 Kubernetes v1.30
v1.16：将 Kubernetes v1.30 列为支持版本
v1.17：将 Kubernetes v1.30 列为测试版本

这种版本间的不兼容性导致了网络功能异常，特别是在公有子网环境下表现更为明显。

解决方案

对于遇到类似问题的用户，建议采取以下步骤：

检查当前使用的 Cilium 版本与 Kubernetes 版本的兼容性
考虑将 Cilium 升级到 v1.16 或更高版本
如果暂时无法升级 Cilium，可以考虑回退到兼容的 Kubernetes 版本
在升级前，建议在测试环境中验证网络功能

最佳实践

为避免类似问题，建议运维团队：

在升级 Kubernetes 集群或节点操作系统前，仔细检查所有关键组件(如 CNI)的兼容性
建立完善的测试流程，在变更前验证关键网络功能
保持 CNI 插件版本与 Kubernetes 版本的同步更新
对于生产环境，考虑采用渐进式升级策略

总结

网络连接问题在 Kubernetes 环境中较为常见，往往与组件版本间的兼容性密切相关。本次案例展示了在 Amazon EKS 环境中，操作系统升级、CNI 选择和 Kubernetes 版本三者间复杂的兼容性关系。通过理解这些依赖关系，运维团队可以更有效地预防和解决类似问题，确保集群网络的稳定性和可靠性。

amazon-eks-ami

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文