Flannel跨节点Pod通信故障排查与解决方案

2025-05-25 15:08:03作者：范靓好Udolf

现象描述

在基于Flannel的Kubernete集群环境中，当使用VXLAN后端模式时，可能会出现跨节点Pod间TCP/UDP通信异常的情况。具体表现为：

同节点Pod间通信完全正常（包括DNS解析、HTTP请求等）
跨节点Pod间能建立ICMP Ping连通
Traceroute测试中，ICMP/TCP SYN协议可通但UDP协议失败
基础网络检查显示Flannel端口8472（VXLAN端口）处于开放状态

环境特征

该问题通常出现在以下环境组合中：

Kubernetes 1.27+版本集群
Flannel 0.24.x版本CNI插件
VXLAN后端模式（默认配置）
同时安装Docker和containerd的运行环境
CentOS 7.x操作系统（内核版本3.10.x）

根本原因

该问题与Linux内核处理VXLAN隧道封包时的校验和机制有关。在特定内核版本（特别是3.10.x）中，当同时存在Docker和containerd时，flannel.1虚拟接口的tx-checksum-ip-generic功能可能导致封包校验异常，表现为：

基础ICMP通信不受影响（因校验要求较低）
TCP连接可能部分成功（SYN包可通过）
UDP协议完全失败（对校验更敏感）
同节点通信走cbr0网桥，不经过VXLAN隧道，故不受影响

解决方案

通过调整flannel.1接口的校验和参数可解决问题，在每个节点执行：

sudo ethtool -K flannel.1 tx-checksum-ip-generic off

该命令的作用是：

禁用VXLAN隧道接口的传输层IP校验和生成
避免内核与用户态网络栈的校验和冲突
保持封包的端到端一致性

实施建议

持久化配置：建议将命令加入节点启动脚本，防止重启失效
集群检查：执行后可通过ethtool -k flannel.1验证参数是否生效
兼容性测试：在混合运行时环境中需特别注意该问题
升级考量：长期方案应考虑升级内核或使用更高版本Flannel

技术原理补充

VXLAN作为Overlay网络方案，其性能与内核处理密切相关。当tx-checksum-ip-generic启用时，内核会尝试对隧道内封包进行校验和计算，这可能与容器网络栈的校验机制产生冲突。在混合容器运行时环境下，这种冲突会被放大，导致协议敏感型通信失败。关闭该功能后，校验责任将完全交由上层协议栈处理，从而保证通信一致性。

对于生产环境，建议进一步：