Antrea项目中SecondaryNetwork功能导致节点网络连接问题的分析与解决

2025-07-09 11:49:50作者：侯霆垣

背景介绍

在Kubernetes网络插件Antrea的使用过程中，当节点配置了多个默认路由规则时，启用SecondaryNetwork功能并重启antrea-agent服务后，可能会出现节点网络连接异常的问题。这种情况主要发生在节点拥有多个网络接口且配置了多条默认路由的场景下。

问题现象

当Kubernetes节点配置如下网络环境时：

节点配备两个网络接口（如eth0和eth1）
每个接口都配置了默认路由规则
主接口eth0的IP为172.26.0.3/27
次接口eth1的IP为172.26.0.35/27

在以下两种路由配置情况下启用SecondaryNetwork功能后会出现问题：

情况一：

default via 172.26.0.1 dev eth0 proto static
default via 172.26.0.33 dev eth1 proto static

情况二：

default via 172.26.0.1 dev eth0 metric 100
default via 172.26.0.33 dev eth1 metric 200

重启antrea-agent服务后，路由表会被重写，可能导致主接口的默认路由丢失，进而影响节点连接和Kubernetes API服务的访问。

问题根源

经过分析，发现问题的根本原因在于：

路由规则覆盖：Antrea的SecondaryNetwork功能在处理路由规则时，会覆盖节点原有的默认路由配置，特别是当存在多条默认路由时。
路由优先级处理不足：对于使用metric值区分优先级的默认路由，Antrea未能正确处理这些路由的优先级关系，导致重要的主接口路由可能被错误移除。
系统网络配置特殊性：在某些特殊配置的测试环境中，系统可能通过非标准方式配置了多条默认路由，而Antrea未能完全兼容这种情况。

解决方案

针对这一问题，Antrea项目组采取了以下改进措施：

路由保留机制：修改SecondaryNetwork功能的实现，确保不会移除节点原有的主接口默认路由。
metric值处理优化：完善对带有metric值的路由规则的处理逻辑，保留路由的优先级信息。
配置验证增强：在Antrea启动时增加对节点网络配置的检查，发现异常配置时给出明确警告。

最佳实践建议

为避免类似问题，建议用户：

规范网络配置：节点应尽量保持单一的默认路由配置，避免多条默认路由共存的情况。
metric值使用：如需配置多条默认路由，应使用metric值明确指定路由优先级。
测试环境验证：在生产环境部署前，应在测试环境中充分验证网络配置变更的影响。
版本升级注意：升级Antrea版本时，注意检查与现有网络配置的兼容性。

总结

Antrea作为Kubernetes网络插件，在处理复杂网络环境时需要特别关注路由规则的兼容性。通过这次问题的分析和解决，Antrea对SecondaryNetwork功能的路由处理逻辑进行了优化，增强了在复杂网络环境下的稳定性。用户在实际部署时应注意遵循网络配置的最佳实践，确保集群网络的可靠性。

该问题的修复已包含在Antrea的后续版本中，用户升级后即可获得改进后的路由处理能力。

antrea

Kubernetes networking based on Open vSwitch

项目地址：https://gitcode.com/gh_mirrors/an/antrea

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。