MicroK8s集群中跨节点DNS解析故障排查与BGP模式解决方案

2025-05-26 15:33:26作者：何举烈Damon

问题现象

在部署基于MicroK8s的两节点集群时，发现以下异常现象：

跨节点服务访问失败：当Pod尝试通过域名访问位于另一节点的服务时，出现504超时错误
DNS解析异常：只有运行CoreDNS的节点能够正常解析域名，其他节点的Pod无法完成DNS解析
同节点通信正常：位于同一节点内的Pod间通信及DNS解析均工作正常

背景分析

该集群部署了MetalLB负载均衡器和KServe推理服务，按照标准文档进行配置后，预期应能通过Host头进行跨节点服务调用。但实际测试发现：

对同节点Pod的请求能返回400错误（表明请求已送达）
对异节点Pod的请求则出现504网关超时
通过kubectl exec测试确认异节点Pod的DNS解析完全失败

根本原因

经过深入排查发现两个关键问题：

网络分段问题：集群节点实际分布在不同的子网中
VXLAN失效：默认的VXLAN网络方案未能正常建立跨子网通信

解决方案

采用Calico的BGP模式替代默认的VXLAN方案：

执行以下命令切换网络模式：

microk8s disable cilium
microk8s enable calico

配置BGP对等：

cat <<EOF | microk8s kubectl apply -f -
apiVersion: projectcalico.org/v3
kind: BGPConfiguration
metadata:
  name: default
spec:
  logSeverityScreen: Info
  nodeToNodeMeshEnabled: true
  asNumber: 64512
EOF

验证网络连通性：

microk8s kubectl get nodes -o wide
microk8s kubectl get pods -n kube-system -o wide
ping <跨节点PodIP>

实施效果

切换至BGP模式后：

跨节点DNS解析立即恢复正常
KServe推理图的跨节点调用成功建立
网络延迟显著降低，服务响应时间趋于稳定

经验总结

在MicroK8s多子网部署场景中，需特别注意：

提前规划网络拓扑，确保物理网络允许BGP协议通信
生产环境建议使用专业的网络观测工具持续观察Calico BGP会话状态
对于无法使用BGP的环境，可考虑配置IPIP隧道作为备选方案

该案例展示了MicroK8s网络插件选择对分布式应用的关键影响，为类似场景提供了有价值的参考解决方案。

microk8s

MicroK8s is a small, fast, single-package Kubernetes for datacenters and the edge.

项目地址：https://gitcode.com/gh_mirrors/mic/microk8s

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch