Kubespray升级后DNS查询超时问题分析与解决

2025-05-13 09:14:31作者：龚格成

问题背景

在使用Kubespray 2.27版本部署的Kubernetes集群中，用户从1.29版本升级到1.31版本后，发现集群内所有Pod的DNS解析功能出现异常，表现为DNS查询超时。该问题在1.29版本中不存在，仅在升级到1.31版本后出现。

问题现象

在1.29版本中，DNS查询能够正常返回结果：

Server:         10.233.0.3
Address:        10.233.0.3:53
Non-authoritative answer:
Name:   google.com
Address: 142.250.76.142

而在1.31版本中，DNS查询出现超时错误：

;; Got recursion not available from 10.233.0.3
Server:         10.233.0.3
Address:        10.233.0.3#53
;; communications error to 10.233.0.3#53: timed out

环境信息

操作系统：RHEL 9
Kubespray版本：release-2.27
网络插件：Calico
Python版本：3.10.12
Ansible版本：3.13.0

问题排查过程

初步分析：首先怀疑是CoreDNS组件的问题，建议增加CoreDNS日志以获取更多信息。
网络配置检查：对比了1.29和1.31版本的Calico配置：
- BGP配置相同：日志级别为Info，网格功能启用，AS号为64512
- IP池配置基本相同，只是CIDR范围略有不同（10.233.64.0/18 vs 10.243.64.0/18）
版本回退测试：将Calico从3.29.1降级到3.27.4后，问题得到解决，表明问题与Calico版本有关。

根本原因

经过深入分析，确定问题是由Calico 3.28版本引入的"checksum offload"功能导致的。该功能在某些网络环境下会导致数据包校验和计算异常，进而影响DNS查询数据包的正常传输。

解决方案

有两种可行的解决方案：

降级Calico版本：将Calico从3.29.1降级到3.27.4版本，这是最直接的解决方案。

禁用checksum offload功能：如果希望保持Calico 3.28+版本，可以通过以下方式禁用该功能：

apiVersion: projectcalico.org/v3
kind: FelixConfiguration
metadata:
  name: default
spec:
  bpfLogLevel: ""
  checksumOffloadBroken: true

经验总结

在Kubernetes集群升级过程中，网络插件的版本兼容性需要特别关注。
Calico等网络插件的新功能可能会与特定环境产生兼容性问题，在生产环境升级前应在测试环境充分验证。
当出现网络通信问题时，可以按照以下步骤排查：
- 检查基础网络连通性
- 验证网络插件配置
- 对比新旧版本差异
- 考虑回退测试以定位问题版本
对于DNS解析问题，除了检查CoreDNS本身，还应关注底层网络通信是否正常。

最佳实践建议

在升级Kubernetes集群时，建议先在小规模测试环境中验证所有核心功能，包括DNS解析。
保持Kubespray、Calico等组件的版本兼容性矩阵，避免使用未经充分验证的版本组合。
对于生产环境的关键业务集群，建议建立完善的监控系统，能够及时发现DNS解析等基础服务异常。
在遇到类似问题时，可以通过逐步回退组件版本的方式快速定位问题来源，同时不影响生产环境稳定性。

kubespray

Deploy a Production Ready Kubernetes Cluster

项目地址：https://gitcode.com/GitHub_Trending/ku/kubespray

登录后查看全文