Submariner项目在OCP 4.18环境下的TCP连通性故障分析与解决方案

2025-06-30 03:47:08作者：贡沫苏Truman

Submariner是一个开源的跨云网络连接解决方案，用于实现多个Kubernetes集群之间的网络连接。 - 功能：Kubernetes集群连接；跨云网络连接。 - 特点：易于使用；支持多种云供应商；与Kubernetes集成；实现网络连接高可用性。

项目地址：https://gitcode.com/gh_mirrors/su/submariner

背景

Submariner是一个开源的Kubernetes网络插件，用于实现跨集群的网络连通性。在最新测试中发现，当运行在OpenShift Container Platform (OCP) 4.18环境中时，Submariner的TCP连通性测试会出现失败情况。这个问题既出现在全局网络(Globalnet)模式下，也出现在非全局网络模式下。

问题现象

当在两个集群间部署Submariner（至少一个集群运行OCP 4.18）并执行连通性验证时，测试会失败。具体表现为：

监听端Pod能够接收到连接请求
数据能够从连接端Pod传输到监听端Pod
但监听端输出的日志中无法识别连接端Pod的全局IP地址

技术分析

数据流路径

在Submariner的网络架构中，数据包传输路径可分为以下几个关键段：

源Pod → Submariner出口网关
Submariner出口网关 → IPSec隧道 → OVN-Kubernetes入口网关
OVN-Kubernetes入口网关 → 目标Pod

问题根源

经过深入分析，发现问题出在OCP 4.18中OVN-Kubernetes的网络包处理机制发生了变化：

SNAT行为变化：在入口段(OVN-K入口 → 目标Pod)，OVN-Kubernetes会对源IP执行SNAT，将其转换为CNI接口IP
防火墙规则变更：OCP 4.18中OVN-Kubernetes开始使用nftables替代iptables作为包过滤机制。虽然Submariner配置了iptables规则来允许这种流量，但nftables的SNAT规则仍然会生效
IP保留失效：Submariner原本的设计意图是保留源IP（可用于多集群网络策略），但由于上述SNAT行为，导致源IP信息丢失

解决方案

短期方案

修改Submariner的测试验证逻辑，使其能够识别和处理经过SNAT后的IP地址
在OVN-Kubernetes配置中添加例外规则，避免对Submariner流量执行SNAT

长期方案

与OVN-Kubernetes社区合作，提供更细粒度的SNAT控制机制
增强Submariner对nftables的支持，确保规则能够正确应用
考虑实现端到端的IP保留机制，不依赖底层CNI的默认行为

影响评估

该问题主要影响以下场景：

需要精确识别源IP的多集群应用
依赖IP白名单的安全策略
网络流量审计和监控功能

对于大多数仅需基本连通性的应用场景，虽然测试会失败，但实际通信仍然可以正常工作。

最佳实践建议

对于使用OCP 4.18及更高版本的用户：

在部署Submariner前，确认OVN-Kubernetes的版本和配置
如果不需要源IP保留功能，可以接受当前的SNAT行为
关注Submariner的版本更新，及时应用相关修复

总结

Submariner在OCP 4.18环境下遇到的TCP连通性问题，本质上是由于底层网络组件行为变更导致的兼容性问题。通过深入理解数据流路径和包处理机制，可以找到有效的解决方案。这个问题也提醒我们，在多集群网络方案中，需要更加关注底层平台的变化可能带来的影响。

Submariner是一个开源的跨云网络连接解决方案，用于实现多个Kubernetes集群之间的网络连接。 - 功能：Kubernetes集群连接；跨云网络连接。 - 特点：易于使用；支持多种云供应商；与Kubernetes集成；实现网络连接高可用性。

项目地址：https://gitcode.com/gh_mirrors/su/submariner

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理