Harvester项目中Kubernetes负载均衡器IP分配卡死问题分析

2025-06-14 08:03:31作者：魏献源Searcher

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

问题背景

在Harvester项目中，当用户在Kubernetes客户集群中同时创建多个负载均衡器服务时，会出现部分负载均衡器无法获取IP地址的问题。这些受影响的负载均衡器会持续处于"Pending"状态，并且相关联的LoadBalancer资源会显示"duplicate allocation is not allowed"的错误信息。

问题现象

从日志分析可以看到，当出现此问题时，系统会陷入一个循环：

负载均衡器尝试分配IP地址
由于IP地址已被标记为分配给当前负载均衡器，系统报错"duplicate allocation is not allowed"
负载均衡器被删除并重新创建
再次尝试分配IP地址时仍然失败

根本原因分析

经过深入分析，发现问题的根本原因在于：

资源竞争条件：当负载均衡器被快速创建和删除时，控制器框架在处理对象更新时可能出现竞争条件。具体表现为客户端(控制器)和服务端(Kubernetes)对同一对象的UID不一致。
IPAM机制缺陷：当前的IP地址管理(IPAM)机制在遇到对象UID不一致时，无法正确处理IP地址的释放和重新分配，导致IP地址被锁定而无法使用。
缓存同步问题：基于Rancher Wrangler框架的控制器在处理频繁创建删除的相同名称对象时，可能存在缓存同步不及时的问题。

解决方案

Harvester团队提出了两个关键改进：

自动释放机制：当系统检测到"duplicate allocation is not allowed"错误，并且IP地址已被分配给当前负载均衡器时，会先释放该IP地址，打破循环，使负载均衡器能够重新获取IP。
手动释放接口：为用户提供了手动释放IP地址分配的机制。通过向IP池对象添加特定注解，用户可以强制释放被锁定的IP地址分配记录。

技术实现细节

在实现层面，主要做了以下优化：

错误处理增强：在检测到IP地址冲突时，增加了自动释放逻辑，确保系统能够从错误状态中恢复。
注解格式设计：手动释放接口采用"IP地址:命名空间/负载均衡器名称"的格式，确保操作精确性。
安全性检查：在手动释放IP地址时，会检查目标负载均衡器是否仍然存在，避免误操作。

验证与测试

测试团队通过以下步骤验证了修复效果：

创建IP池并模拟负载均衡器快速创建删除场景
观察系统是否能够自动从IP地址冲突中恢复
测试手动释放接口的各种场景，包括：
- 负载均衡器仍存在时的释放尝试
- 已释放IP的重复释放
- 格式错误的释放请求

测试结果表明，修复后系统能够正确处理IP地址分配冲突，并且手动释放接口工作正常。

总结

Harvester项目中的这一修复解决了Kubernetes负载均衡器IP分配卡死的关键问题，提高了系统的稳定性和可靠性。通过自动恢复机制和手动干预接口的结合，为用户提供了更完善的IP地址管理能力。这一改进对于需要大规模部署负载均衡器服务的用户尤为重要，确保了系统在高并发创建负载均衡器时的稳定性。

该修复已包含在Harvester v1.5.0和v1.4.2版本中，建议受此问题影响的用户升级到这些版本以获得最佳体验。

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用