AWS EKS 1.29版本升级后CoreDNS问题深度解析

2025-06-08 14:09:57作者：钟日瑜

问题背景

在AWS EKS环境中，许多用户在将集群从1.25版本升级到1.29版本后，遇到了CoreDNS服务异常的问题。这个问题在1.28及之前版本中并未出现，但在升级到1.29后突然显现，表现为应用程序无法解析域名，CoreDNS日志中显示无法连接到Kubernetes API端点。

问题表现

从用户提供的日志中可以观察到两种截然不同的行为模式：

正常情况下的CoreDNS日志（1.28版本）

[INFO] 172.31.141.181:51238 - 25614 "A IN domain1.c.xxxxx.internal. udp 70 false 512" NOERROR qr,rd,ra 138 0.014623223s

异常情况下的CoreDNS日志（1.29版本）

[INFO] plugin/kubernetes: waiting for Kubernetes API before starting server
[WARNING] plugin/kubernetes: starting server with unsynced Kubernetes API
[ERROR] plugin/kubernetes: pkg/mod/k8s.io/client-go@v0.27.4/tools/cache/reflector.go:231: Failed to watch *v1.Service: failed to list *v1.Service: Get "https://10.100.0.1:443/api/v1/services?limit=500&resourceVersion=0": dial tcp 10.100.0.1:443: i/o timeout

问题根源分析

经过深入调查，这个问题主要与以下几个因素相关：

kube-proxy版本问题：在1.29.x版本的kube-proxy中，当CoreDNS pod被移除时，虽然iptables规则被正确更新，但conntrack表中仍保留着指向旧CoreDNS pod IP的条目。这个问题在Kubernetes上游已被修复，修复版本包括1.31.1、1.30.5、1.29.9和1.28.14。
Fargate特定问题：在EKS Fargate环境中，存在约60秒的启动延迟问题，这会导致新加入的Fargate pod在初始阶段出现DNS解析失败的情况。
网络连接超时：从日志中可以看到，CoreDNS无法连接到Kubernetes API端点(10.100.0.1:443)，导致无法同步必要的服务信息。

解决方案

临时解决方案

添加初始化容器：在部署配置中添加一个初始化容器，使其在应用容器启动前等待DNS服务可用：

spec:
  initContainers:
  - name: init-service
    image: busybox:1.28
    command: ['sh', '-c', "until nslookup <FQDN-your-app-is-trying>; do echo waiting for DNS Resoluton; sleep 2; done"]

Fargate环境特定方案：对于Fargate pod，可以让初始化容器休眠60秒以等待问题缓解：

spec:
  initContainers:
  - name: sleep
    image: busybox
    command: ["sleep", "60"]

长期解决方案

升级kube-proxy：确保kube-proxy版本至少为1.29.9-eksbuild.x或更高版本，这些版本包含了上游修复的连接跟踪表清理问题。
监控和告警：设置监控以检测CoreDNS的健康状态，及时发现并处理类似问题。
资源分配：确保CoreDNS pod有足够的CPU和内存资源，避免因资源不足导致性能问题。

最佳实践建议

升级策略：在升级到1.29或更高版本前，先测试kube-proxy和CoreDNS的兼容性。
回滚计划：在进行大规模升级前，确保有完善的回滚方案，特别是对于生产环境。
多环境验证：在开发/测试环境中充分验证新版本的行为，特别是网络和DNS相关功能。
版本一致性：保持控制平面和工作节点组件版本的一致性，避免因版本差异导致兼容性问题。

总结

AWS EKS 1.29版本的升级引入了CoreDNS相关的问题，主要表现为DNS解析失败和API连接超时。这些问题主要源于kube-proxy的连接跟踪表清理不彻底和Fargate环境的启动延迟。通过升级到修复版本或实施临时解决方案，可以有效缓解这些问题。在进行版本升级时，建议采取谨慎的策略，充分测试并准备回滚方案，确保服务的连续性。

containers-roadmap

This is the public roadmap for AWS container services (ECS, ECR, Fargate, and EKS).

项目地址：https://gitcode.com/gh_mirrors/co/containers-roadmap

登录后查看全文

AWS EKS 1.29版本升级后CoreDNS问题深度解析

问题背景

问题表现

问题根源分析

解决方案

临时解决方案

长期解决方案

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

AWS EKS 1.29版本升级后CoreDNS问题深度解析

问题背景

问题表现

问题根源分析

解决方案

临时解决方案

长期解决方案

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选