Submariner项目中服务导出异常问题的分析与解决

2025-06-30 15:30:54作者：廉彬冶Miranda

问题背景

在Submariner多集群网络方案的实际部署中，用户反馈在主机重启后出现服务导出异常现象。具体表现为：虽然subctl show connections显示集群间连接状态正常，但服务导出后无法在目标集群中正确显示为导入服务。同时网关Pod日志中持续报出"not found any active connection"警告。

现象分析

通过对用户提供的日志和诊断信息的分析，我们发现以下几个关键现象：

连接状态显示正常但实际通信异常：管理工具显示集群间连接状态为"connected"，但底层IPSec连接实际上并未成功建立。
服务导入资源异常：Lighthouse组件创建的ServiceImport资源在主机重启后意外消失，导致服务发现功能中断。
组件重启问题：lighthouse-agent和coredns组件出现频繁重启（8次），可能存在稳定性问题。

根本原因

经过深入排查，我们确定了以下根本原因：

容器运行时行为差异：当主机重启时，容器运行时的处理方式直接影响Submariner组件的恢复：
- 如果运行时完全重启容器，Submariner组件会重建所有网络规则
- 如果运行时采用暂停/恢复机制，原有网络规则可能丢失而组件无法感知
ServiceImport资源管理缺陷：Lighthouse组件在异常恢复过程中存在资源管理问题，导致ServiceImport资源被错误删除。
IPSec连接恢复机制：Libreswan驱动在检测到连接中断后，未能自动重建隧道连接。

解决方案

针对上述问题，我们建议采取以下解决方案：

临时解决方案

手动重启相关组件：

kubectl delete pods -n submariner-operator -l app=submariner-routeagent
kubectl delete pods -n submariner-operator -l app=submariner-gateway
kubectl delete pods -n submariner-operator -l app=submariner-lighthouse-agent

重新导出服务：

subctl unexport service <service-name>
subctl export service <service-name>

长期解决方案

开发团队已经提交了以下修复：

修复ServiceImport资源管理逻辑，防止异常删除
增强IPSec连接恢复机制
改进组件异常处理流程

最佳实践建议

对于生产环境部署，我们建议：

容器运行时配置：确保容器运行时在主机重启时采用完全重启策略而非暂停/恢复。
监控告警：部署监控系统检测以下指标：
- 网关连接状态
- ServiceImport资源存在性
- 组件重启次数
灾备方案：为关键业务服务设计多集群冗余方案，不依赖单一服务导出路径。

技术深度解析

Submariner的服务发现机制依赖于几个关键组件协同工作：

Lighthouse组件：负责服务信息的聚合和分发
- Agent组件监控服务导出变化
- CoreDNS提供跨集群服务解析
资源同步机制：
- 源集群创建ServiceExport资源
- Broker集群聚合生成ServiceImport
- 目标集群同步ServiceImport

故障恢复流程：当检测到连接中断时，各组件应按顺序执行：

graph TD
A[连接中断] --> B[路由清理]
B --> C[IPSec隧道重建]
C --> D[资源同步]
D --> E[状态上报]

总结

Submariner作为多集群网络解决方案，在复杂环境下的健壮性需要持续优化。本次问题暴露出在异常恢复场景下的若干不足，开发团队已经针对性地进行了修复。建议用户关注版本更新，及时升级到包含修复的版本。

对于关键业务场景，建议在部署前充分测试各种故障场景下的恢复能力，并建立完善的监控体系，确保能够及时发现和处理类似问题。

submariner

项目地址：https://gitcode.com/gh_mirrors/su/submariner

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

209

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。