Submariner项目中Calico网络环境下跨集群服务发现的故障排查与解决
2025-06-30 04:21:58作者:卓炯娓
背景概述
在Kubernetes多集群环境中,Submariner作为网络互联解决方案,能够实现跨集群的服务发现和网络连通。本文记录了一个典型故障案例:在Calico CNI环境下,虽然Submariner的诊断工具显示所有检查通过,但实际跨集群服务发现功能却无法正常工作。
环境配置
用户环境包含两个Kubernetes集群,关键网络配置如下:
- 集群1:
- 集群CIDR: 10.46.0.0/16
- 服务CIDR: 10.45.0.0/16
- 集群2:
- 集群CIDR: 10.42.0.0/16
- 服务CIDR: 10.43.0.0/16
集群使用RKE2部署,Kubernetes版本为v1.27.9+rke2r1,Calico版本为v3.26.3,并启用了Calico API Server。环境位于企业代理后方,这一特点为后续排查埋下了伏笔。
故障现象
虽然subctl diagnose all命令显示所有检查通过,且服务导出/导入的CRD状态显示正常,DNS解析也能正确返回服务IP,但实际的网络连通性测试失败。具体表现为:
- 跨集群的Pod间TCP连接测试失败
- 从集群1无法ping通集群2的Pod IP(10.42.X.X)
- 从集群2到集群1的ping请求无任何响应
深入排查
初步分析
通过检查Submariner各组件的日志,发现路由代理(routeagent)报出关键错误:
Error annotating node with CNI interface IP: Error retrieving the CNI interface for 10.46.0.0/24
这表明Submariner在自动检测网络配置时,错误地将集群CIDR识别为/24子网,而非实际配置的/16。
网络路径验证
通过tcpdump抓包分析发现:
- 跨集群流量没有通过预期的vx-submariner或vxlan.calico隧道接口
- 流量被错误地路由到默认网络接口
- 目标不可达的ICMP响应来自一个意外的IP地址(10.128.11.126)
Calico IPPool检查
检查Calico的IPPool资源发现:
- Submariner自动创建的IPPool使用了/24子网
- 这些IPPool与实际的集群CIDR范围不匹配
- 默认的Calico IPPool配置使用了VXLAN模式
根本原因
问题的核心在于Submariner的CIDR自动检测机制与特定Calico配置存在兼容性问题:
- CIDR检测偏差:Submariner错误地将/16的集群CIDR检测为/24,导致后续的网络配置不正确
- 路由策略失效:由于CIDR不匹配,Submariner无法正确设置反向路径过滤(rp_filter)规则
- 隧道建立异常:流量未能通过预期的VXLAN隧道传输
解决方案
通过显式指定CIDR参数解决了问题:
subctl join --kubeconfig cluster1.yaml broker-info.subm \
--clusterid cluster-1 \
--context cluster-4f50834d \
--natt=false \
--air-gapped \
--health-check=false \
--force-udp-encaps \
--clustercidr 10.46.0.0/16 \
--servicecidr 10.45.0.0/16
经验总结
- CIDR验证:在复杂网络环境中,务必验证Submariner自动检测的CIDR是否与实际配置一致
- 显式配置:当自动检测不可靠时,使用
--clustercidr和--servicecidr参数显式指定网络范围 - 网络策略检查:确保Calico的网络策略允许Submariner的必要流量
- 环境特殊性:企业代理环境可能需要额外的网络配置,需特别注意
后续改进建议
- 增强Submariner在Calico环境下的CIDR检测逻辑
- 改进诊断工具,增加对实际CIDR与检测CIDR一致性的检查
- 完善文档,明确说明在复杂网络环境下可能需要的手动配置步骤
这个案例展示了在复杂网络环境下使用Submariner时可能遇到的典型问题,也为类似环境的部署提供了有价值的参考经验。
登录后查看全文
热门项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
FreeSql功能强大的对象关系映射(O/RM)组件,支持 .NET Core 2.1+、.NET Framework 4.0+、Xamarin 以及 AOT。C#00
项目优选
收起
deepin linux kernel
C
27
14
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
658
4.26 K
Ascend Extension for PyTorch
Python
503
607
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
939
862
Oohos_react_native
React Native鸿蒙化仓库
JavaScript
334
378
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
390
285
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
123
195
openGauss kernel ~ openGauss is an open source relational database management system
C++
180
258
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.54 K
892
昇腾LLM分布式训练框架
Python
142
168