Kube-Router在Kubernetes 1.29中BGP同步缓慢问题分析

2025-07-02 06:37:25作者：齐添朝

Kube-router, a turnkey solution for Kubernetes networking.

项目地址：https://gitcode.com/gh_mirrors/ku/kube-router

在Kubernetes集群从1.28版本升级到1.29版本后，用户报告Kube-Router网络组件的启动时间显著增加，导致工作负载的网络连接延迟约5分钟。经过深入分析，发现这是由于Kubernetes 1.29中节点IP地址处理机制的变化与Kube-Router交互时产生的问题。

问题现象

当Kube-Router 1.4.0在Kubernetes 1.29集群中启动时，初始BGP同步过程异常缓慢。日志显示，从"Add a peer configuration"到"sync finished"消息之间间隔约5分钟。在此期间，已运行的Pod无法正常使用网络。

根本原因

问题源于Kubernetes 1.29版本中引入的节点IP地址处理机制变更。当使用--cloud-provider=external参数时，节点状态中的地址列表(status.addresses)最初为空，需要等待云控制器填充。而Kube-Router的网络路由控制器(NRC)依赖此列表来发现和配置BGP对等节点。

在Kubernetes 1.29之前，kubelet会自动填充节点IP地址。但1.29版本后，这一行为被修改为等待外部云控制器完成地址填充。这导致Kube-Router在启动时无法立即获取到其他节点的IP地址，从而无法建立BGP连接。

解决方案

有两种主要解决方法：

显式指定节点IP：通过为kubelet添加--node-ip=<NODE_IP_ADDRESS>参数，可以恢复1.29之前的行为，使节点IP地址立即出现在status.addresses列表中。
更新Kube-Router版本：较新版本的Kube-Router可能已经针对这一问题进行了优化，建议升级到与Kubernetes 1.29兼容的版本。

在AWS环境中，可以通过实例元数据服务(IMDS)获取节点内部IP地址，并在节点引导过程中将其传递给kubelet。对于使用kubeadm的控制平面节点，可以通过kubeadm join配置文件中的nodeRegistration.kubeletExtraArgs设置node-ip参数。

技术影响分析

这一变更对集群网络性能产生了几方面影响：

节点启动延迟：新节点加入集群后，网络功能需要等待更长时间才能完全就绪。
BGP收敛时间：全网格BGP拓扑中，节点间的对等关系建立被延迟。
工作负载可用性：依赖网络的工作负载在节点重启或滚动更新期间会经历更长的不可用时间。

最佳实践建议

对于生产环境，建议始终明确指定节点IP地址，而不是依赖自动发现机制。
定期更新Kube-Router版本，确保与Kubernetes版本的兼容性。
在升级Kubernetes版本前，应在测试环境中验证网络组件的兼容性和性能表现。
考虑实现节点IP地址的自动化配置，特别是在云环境中，以确保配置的一致性和可靠性。

这个问题展示了Kubernetes生态系统中组件间微妙的依赖关系，以及版本升级可能带来的意外影响。通过理解底层机制并采取适当的配置措施，可以有效避免这类问题对生产环境造成影响。

Kube-router, a turnkey solution for Kubernetes networking.

项目地址：https://gitcode.com/gh_mirrors/ku/kube-router

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。