RKE2集群在Oracle Linux 9上使用Calico网络插件的连通性问题分析

2025-07-09 15:44:03作者：彭桢灵Jeremy

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

问题背景

在使用RKE2构建Kubernetes集群时，网络插件的选择对集群的稳定性和性能有着重要影响。近期有用户反馈，在Oracle Linux 9操作系统上部署RKE2集群时，当使用Calico或Canal（Flannel+Calico）作为网络插件时，出现了跨节点Pod间通信异常的问题，而同样的配置在Oracle Linux 8上却能正常工作。

环境配置详情

用户部署的环境具有以下特点：

操作系统：Oracle Linux Server 9.4（内核版本5.15.0-300.163.18.el9uek.x86_64）
对比环境：Oracle Linux Server 8.9（内核版本5.4.17-2136.327.2.el8uek.x86_64）
Rancher Manager版本：2.10.1
RKE2版本：v1.30.8+rke2r1
网络插件测试情况：
- Canal（Flannel + Calico）：Oracle Linux 9上不工作
- 纯Calico：Oracle Linux 9上不工作
- 纯Flannel：Oracle Linux 9上工作正常
- 所有配置在Oracle Linux 8上均正常工作

问题现象分析

通过详细的网络测试和抓包分析，可以观察到以下现象：

Pod间ping测试显示高达64%的丢包率，且响应时间波动极大（从0.291ms到2045ms不等）
偶尔能收到响应，但大多数情况下通信失败
在vxlan.calico接口上抓包显示，请求包正常发送但响应包未能全部返回
ARP请求频繁出现，表明可能存在地址解析问题
在Pod内部抓包显示存在UDP校验和错误

根本原因探究

经过深入分析，这个问题可能与以下几个因素有关：

VMware虚拟化环境特性：所有节点都运行在VMware ESXi上，VMware对VXLAN协议有特殊处理，特别是当使用非标准VXLAN端口时。
校验和卸载问题：现代Linux内核默认启用网络接口的校验和卸载功能，但在虚拟化环境中，特别是使用VMXNET3虚拟网卡时，可能导致VXLAN内部数据包的校验和计算错误。
Oracle Linux 9内核变化：与Oracle Linux 8相比，9系列的内核在网络栈实现上有显著变化，特别是在VXLAN处理方面，这可能解释了为何问题仅出现在OL9上。
Calico的VXLAN实现：Calico默认使用VXLAN封装，而Flannel也使用VXLAN却能正常工作，表明问题可能与Calico特定的VXLAN实现参数有关。

解决方案建议

针对这一问题，可以考虑以下几种解决方案：

禁用校验和卸载：虽然用户已经检查发现tx-checksum-ip-generic已关闭，但仍建议全面禁用所有相关接口的校验和卸载功能：
```
ethtool -K <interface> tx off rx off
```

调整VXLAN端口：将Calico使用的VXLAN端口从默认值改为8472（非NSX环境）或4789（NSX环境）：

apiVersion: crd.projectcalico.org/v1
kind: FelixConfiguration
metadata:
  name: default
spec:
  vxlanPort: 8472

内核参数调优：尝试调整以下内核参数：

echo 1 > /proc/sys/net/ipv4/conf/all/rp_filter
echo 1 > /proc/sys/net/ipv4/conf/default/rp_filter

网络插件替代方案：
- 继续使用Flannel作为网络插件
- 考虑使用Calico的IPIP模式替代VXLAN
VMware特定配置：在ESXi主机层面，确保虚拟机的网络配置正确，特别是与VXLAN相关的offload设置。

预防措施

为了避免类似问题，建议在部署RKE2集群时：

在生产环境部署前，先在测试环境验证网络插件的兼容性
针对特定的操作系统版本，查阅网络插件的兼容性列表
在虚拟化环境中，特别注意虚拟网卡类型和相关offload设置
保持内核和网络插件版本的同步更新

总结

Oracle Linux 9与Calico网络插件在VMware环境下的兼容性问题，主要源于内核网络栈实现变化与虚拟化环境特性的交互作用。通过调整VXLAN参数或禁用特定网络功能，可以有效解决这一问题。这也提醒我们，在新型操作系统上部署Kubernetes集群时，需要特别关注网络插件的兼容性测试。

rke2

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

RKE2集群在Oracle Linux 9上使用Calico网络插件的连通性问题分析

问题背景

环境配置详情

问题现象分析

根本原因探究

解决方案建议

预防措施

总结

热门内容推荐

最新内容推荐

项目优选

RKE2集群在Oracle Linux 9上使用Calico网络插件的连通性问题分析

问题背景

环境配置详情

问题现象分析

根本原因探究

解决方案建议

预防措施

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选