Submariner项目中跨集群Pod通信问题分析与解决方案

2025-06-30 03:10:46作者：董斯意

项目地址：https://gitcode.com/gh_mirrors/subm/submariner

问题背景

在使用Submariner项目实现Kubernetes多集群网络互联时，用户遇到了一个典型问题：当业务Pod部署在非网关节点上时，跨集群的Pod间通信无法正常工作。具体表现为通过curl访问时请求无响应，而如果服务都部署在网关节点上则通信正常。

环境配置

Kubernetes版本：1.25.3
Submariner版本：0.18.0
CNI插件：Calico（使用VXLAN模式）
部署了两个集群（cluster1和cluster2）通过Submariner连接

问题现象分析

通过详细排查，发现问题出在Linux内核的FORWARD链上。默认情况下，FORWARD链的策略为DROP，而跨集群通信的数据包未能匹配任何规则，导致数据包被丢弃。当将FORWARD链的默认策略改为ACCEPT或添加适当的规则后，通信恢复正常。

技术原理深入

Submariner实现跨集群通信的数据路径可以分为以下几个关键阶段：

出站路径（Egress）：
- 源集群非网关节点Pod -> 源集群网关节点：通过vx-submariner虚拟接口
- 源集群网关节点 -> 目标集群网关节点：通过IPSec隧道
入站路径（Ingress）：
- IPSec数据包解密
- CNI插件（Calico）负责将数据包转发到目标Pod
响应路径：
- 目标集群非网关节点Pod -> 目标集群网关节点
- 目标集群网关节点 -> 源集群网关节点
- IPSec解密后由Calico转发回源Pod

根本原因

问题核心在于Calico配置与网络策略的交互。当使用VXLAN模式时：

跨集群通信的数据包源IP是另一集群的Pod IP，不属于本地集群CIDR范围
默认的FORWARD链DROP策略会丢弃这些"异常"数据包
网关节点上的路由表显示对远程集群CIDR的路由为"unreachable"

解决方案评估

临时解决方案

修改FORWARD链默认策略为ACCEPT：

iptables -P FORWARD ACCEPT

推荐解决方案

Calico配置优化：
- 确认Calico的IPPool配置正确，特别是natOutgoing设置为true
- 检查默认的default-ipv4-ippool配置
网络策略调整：
- 添加明确的FORWARD链规则允许跨集群通信
- 确保不破坏现有安全策略
Submariner组件管理：
- 定期重启RouteAgent组件以保持路由同步
- 监控网关节点状态

性能考量

测试发现不同Calico封装模式对性能有显著影响：

CrossSubnet模式：
- 接近主机间直接通信性能（约1GB/s）
- 推荐用于同数据中心集群互联
VXLAN Always模式：
- 性能下降约2/3（约200MB/s）
- 必要时的跨网络环境解决方案

最佳实践建议

生产环境应优先使用CrossSubnet模式以获得最佳性能
跨复杂网络环境时可考虑VXLAN Always模式
定期检查网关节点路由表和iptables规则
实施监控告警机制，及时发现连接问题

总结

Submariner作为多集群网络解决方案，在实际部署时需要特别注意CNI插件配置与主机网络策略的协调。通过合理配置Calico和系统网络策略，可以构建既安全又高效的跨集群通信网络。本文描述的问题和解决方案为类似环境部署提供了重要参考。

项目地址：https://gitcode.com/gh_mirrors/subm/submariner

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理