Calico VXLAN模式下跨节点通信故障排查与解决方案

2025-06-03 14:53:13作者：齐添朝

问题背景

在Kubernetes集群中使用Calico作为CNI插件时，我们遇到了一个典型的网络通信问题：当外部流量通过NodePort或LoadBalancer服务进入集群时，只有请求被路由到运行目标Pod的节点才能成功响应，否则会出现连接超时。这种情况明显违反了Kubernetes服务的基本设计原则——NodePort服务应该在所有集群节点上都可用，无论目标Pod是否在该节点上运行。

环境配置

Calico版本：3.29.1
数据平面：iptables
Kubernetes版本：v1.31.5（通过RKE2发行版提供）
操作系统：所有节点运行Debian12，Linux内核版本6.1.124-1
节点接口：
- enX0：公网接口
- enX1：内部通信接口
- enX2：存储网络接口

故障现象分析

通过深入排查，我们发现以下几个关键现象：

MTU配置问题：初始检查发现接口MTU未能正确自动检测，原因是mtuIfacePattern默认值与Debian 12的接口命名模式不匹配。
校验和问题：tcpdump显示UDP校验和错误，这是内核已知问题，通常可以通过禁用校验和验证解决，但在本案例中此方法无效。
路由路径异常：conntrack记录显示，在正常工作的集群中，NAT转换使用VXLAN接口IP，而故障集群则使用公网接口IP。
接口绑定错误：ip -d link show dev vxlan.calico命令显示VXLAN隧道错误地绑定到了存储网络接口enX2，而非预期的内部通信接口enX1。
iptables规则缺失：故障集群的FORWARD链缺少关键的kube-proxy规则链，导致流量无法正确转发。

根本原因

综合以上现象，问题的根本原因在于：

VXLAN接口绑定错误：Calico自动检测机制错误地将VXLAN隧道绑定到了存储网络接口，而非集群内部通信接口。这导致跨节点通信时使用了错误的源IP地址。
iptables规则不完整：kube-proxy的规则链缺失，导致服务流量无法正确转发到目标Pod。
配置不一致：工作集群和非工作集群虽然表面配置相同，但在接口绑定和网络规则方面存在细微但关键的差异。

解决方案

1. 修正VXLAN接口绑定

通过修改CalicoNetworkSpec配置，显式指定VXLAN隧道使用的网络接口：

apiVersion: operator.tigera.io/v1
kind: Installation
metadata:
  name: default
spec:
  calicoNetwork:
    nodeAddressAutodetectionV4:
      interface: "enX1"  # 显式指定内部通信接口

应用配置后，确认所有节点的VXLAN接口正确绑定：

ip -d link show dev vxlan.calico

2. 恢复iptables规则

对于缺失的kube-proxy规则链，采取以下步骤恢复：

重启kube-proxy服务（可能不足以完全恢复规则）
必要时重启节点以触发完整规则同步
验证FORWARD链是否包含必要的kube-proxy规则链

3. 配置验证

完成修复后，进行全面的功能验证：

跨节点Pod通信测试：

kubectl exec -it <pod-on-node1> -- ping <pod-on-node2-ip>
kubectl exec -it <pod-on-node1> -- curl <pod-on-node2-ip>

服务访问测试：

# 从集群外部多次访问服务，验证请求能否正确路由到不同节点上的Pod
for i in {1..10}; do curl http://<service-ip>; done

网络路径检查：

# 在接收请求的节点上抓包，确认流量路径
tcpdump -i any -nn -v port 4789 or port <service-port>

经验总结

接口绑定至关重要：在具有多个网络接口的环境中，必须确保Calico正确识别并使用集群内部通信接口。
规则同步机制：kube-proxy的iptables规则在某些情况下可能需要节点重启才能完全恢复，简单的服务重启可能不足。
环境一致性检查：即使配置相同的集群，也可能因底层网络环境差异导致不同行为，部署前应进行详细的环境审查。
分层排查方法：网络问题排查应从底层（接口、路由）到上层（iptables规则、服务发现）逐步推进。

通过系统性的问题分析和针对性的解决方案，我们成功解决了Calico VXLAN模式下的跨节点通信问题，为类似环境下的网络故障排查提供了有价值的参考案例。

calico

Cloud native networking and network security

项目地址：https://gitcode.com/gh_mirrors/cal/calico

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

646