Kubernetes集群中NodeLocal DNS与CoreDNS连接问题的分析与解决

2025-05-13 12:33:35作者：戚魁泉Nursing

Deploy a Production Ready Kubernetes Cluster

项目地址：https://gitcode.com/GitHub_Trending/ku/kubespray

问题背景

在Kubernetes集群部署过程中，使用Kubespray工具安装的NodeLocal DNS组件与CoreDNS之间出现了连接异常。具体表现为NodeLocal DNS无法正确解析DNS请求，日志中频繁出现"dial tcp 10.233.0.3:53: i/o timeout"错误。经过测试发现，只有当Pod、NodeLocal DNS和CoreDNS位于同一节点时才能正常工作，跨节点通信则失败。

环境配置

该问题出现在以下环境中：

操作系统：Ubuntu 24
部署工具：Kubespray最新版本
网络插件：Calico
集群配置：1个master节点(同时运行etcd)和4个worker节点
DNS组件：采用默认的NodeLocal DNS和CoreDNS配置

问题分析

现象深入

错误日志特征：NodeLocal DNS日志显示对CoreDNS服务IP(10.233.0.3)的连接超时
拓扑依赖：DNS解析仅在相同节点上的组件间工作正常
网络表现：跨节点通信失败，表明可能存在网络策略或路由问题

根本原因

经过排查，问题根源在于Calico网络插件的VXLAN配置。默认情况下，Calico的VXLAN模式可能无法正确处理跨子网的DNS通信流量，特别是在多节点环境中。这导致了NodeLocal DNS无法通过服务IP访问位于其他节点上的CoreDNS实例。

解决方案

配置修改

解决此问题的关键在于调整Calico的VXLAN接口模式。具体修改位于Kubespray的Calico默认配置文件中：

定位到roles/network_plugin/calico_defaults/defaults/main.yml文件
将Calico VXLAN接口模式从默认值改为"Cross-Subnet"

修改效果

跨子网通信：Cross-Subnet模式允许VXLAN在需要时(跨子网)才封装数据包，优化了网络性能
DNS解析恢复：修改后NodeLocal DNS能够正常访问所有节点上的CoreDNS实例
集群稳定性：解决了跨节点服务发现的问题，确保了集群内DNS解析的可靠性

实施建议

对于遇到类似问题的用户，建议采取以下步骤：

验证网络连通性：首先确认基础网络是否正常，包括节点间ping测试和端口连通性检查
检查DNS组件状态：确认CoreDNS和NodeLocal DNS的所有实例都处于Running状态
审查网络配置：特别关注Calico的网络策略和VXLAN设置
应用解决方案：按照上述方法修改Calico配置并重新部署
全面测试：修改后进行跨节点DNS解析测试，确保问题完全解决

经验总结

在Kubernetes集群部署中，网络配置特别是CNI插件的设置对集群功能有着决定性影响。当出现服务间通信问题时，应当：

首先分析问题是否具有拓扑相关性(如同节点正常，跨节点异常)
检查网络插件配置是否适合当前基础设施环境
了解不同网络模式的特点及其适用场景
通过逐步排查法定位问题根源

这次问题的解决不仅修复了DNS功能，也加深了对Kubernetes网络实现原理的理解，为后续集群运维积累了宝贵经验。

Deploy a Production Ready Kubernetes Cluster

项目地址：https://gitcode.com/GitHub_Trending/ku/kubespray

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。