kube-router与systemd-networkd路由管理冲突问题解析

2025-07-01 12:30:29作者：薛曦旖Francesca

问题背景

在Kubernetes网络环境中，kube-router作为一款流行的网络解决方案，经常与系统网络管理服务systemd-networkd共存。然而，当systemd-networkd服务重启时，可能会导致kube-router网络功能出现异常，特别是访问Kubernetes API服务时会出现故障。

问题现象

用户报告在k0s集群中使用kube-router时，当执行systemctl restart systemd-networkd命令后，虽然大部分网络流量看似正常，但集群内部访问Kubernetes API服务会出现故障。这种问题不会自动恢复，必须通过删除并重新启动kube-router Pod才能解决。

根本原因分析

经过深入调查，发现问题根源在于systemd-networkd的一个配置选项ManageForeignRoutingPolicyRules。该选项默认值为yes，意味着systemd-networkd会主动管理非自身配置的路由策略规则。当systemd-networkd重启时，它会清除kube-router设置的路由规则，导致网络连接异常。

技术细节

路由同步机制：kube-router从v2.0.0版本开始引入了路由同步控制器(route sync controller)，默认每5分钟检查并恢复路由状态。但在实际测试中发现，这种自动恢复机制在某些情况下可能失效。
systemd-networkd行为：systemd-networkd默认会监控并清理非自身配置的路由规则，这种设计理念与kube-router的路由管理方式产生冲突。
影响范围：主要影响使用kube-router作为CNI插件且系统使用systemd-networkd作为网络管理服务的Kubernetes集群。

解决方案

推荐解决方案：在systemd-networkd配置文件中设置ManageForeignRoutingPolicyRules=no，允许其他网络管理工具维护自己的路由规则。
临时解决方案：手动重启受影响的kube-router Pod，强制重新建立路由规则。
长期建议：
- 升级到最新版kube-router（v2.5.0+），利用改进的路由同步机制
- 调整kube-router的--routes-sync-period参数，缩短路由同步间隔
- 在系统层面禁用自动更新或配置更新时不重启systemd-networkd服务