Harvester项目中Kubernetes负载均衡器IP分配卡死问题深度解析

2025-06-14 14:14:48作者：霍妲思

问题背景

在Harvester项目中，当用户在Kubernetes客户集群中同时创建多个LoadBalancer类型的服务时，会出现部分负载均衡器无法获取IP地址的问题。这些负载均衡器会持续处于"Pending"状态，而其关联的LoadBalancer资源状态信息中会显示"duplicate allocation is not allowed"的错误提示。

问题现象

当出现该问题时，系统会表现出以下典型症状：

部分负载均衡器服务持续处于Pending状态
负载均衡器资源状态中包含类似错误信息："1.2.3.4 has been allocated to harvester-public/guest-cluster-name-default-test-loadbalancer-3-8c40671d, duplicate allocation is not allowed"
Harvester云控制器会不断删除并重新创建负载均衡器资源
IP池资源中会保留已删除负载均衡器的IP分配记录

问题根源分析

经过深入分析，发现该问题主要由以下几个因素共同导致：

资源竞争条件：当快速连续创建和删除同名负载均衡器对象时，Kubernetes API服务器和控制器之间存在竞争条件。控制器尝试更新对象时，对象可能已被删除并重新创建，导致UID不匹配。
IP分配机制缺陷：当控制器尝试分配IP地址时，如果检测到IP已被分配，系统没有正确处理这种情况，而是直接报错，导致后续操作无法继续。
状态同步问题：控制器在遇到错误时没有正确同步最新状态，导致系统陷入错误循环。

解决方案

针对上述问题，开发团队提出了以下解决方案：

智能IP释放机制：当系统检测到"duplicate allocation is not allowed"错误，并且IP确实已分配给当前负载均衡器时，会自动释放该IP，打破循环，使负载均衡器能够重新获取IP。
手动IP释放功能：为用户提供手动释放残留IP分配记录的能力。通过在IP池对象中添加特定注解，用户可以手动释放被占用的IP地址。

手动释放IP的注解格式示例：

annotations:
  loadbalancer.harvesterhci.io/manuallyReleaseIP: "192.168.5.12: default/cluster1-lb-3"

技术实现细节

解决方案的核心在于改进了IP分配和释放的逻辑：

当检测到IP冲突时，系统会先检查该IP是否确实被当前负载均衡器占用。如果是，则先释放该IP，再进行重新分配。
手动释放功能会验证请求的有效性，包括：
- 检查指定的负载均衡器是否仍然存在
- 验证IP地址格式是否正确
- 确认IP确实处于已分配状态
系统会维护IP分配历史记录，便于问题排查和审计。

验证与测试

解决方案经过严格测试，验证了以下场景：

自动恢复功能：模拟IP分配冲突场景，验证系统能够自动释放并重新分配IP。
手动释放功能：
- 验证对现有负载均衡器的IP释放请求会被忽略
- 验证对已释放IP的重复释放请求会被忽略
- 验证无效格式的释放请求会被忽略
- 验证对已删除负载均衡器的IP能够成功释放
历史记录功能：验证系统正确维护IP分配历史记录。