Harvester项目中VM控制器资源配额计算缺陷分析与修复

2025-06-14 04:24:30作者：宣海椒Queenly

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

问题背景

在Harvester虚拟化管理平台中，我们发现了一个关于虚拟机(VM)控制器计算资源配额(ResourceQuota)时存在的逻辑缺陷。该问题会导致在某些情况下，即使命名空间有足够的资源配额，虚拟机也无法正常启动，被错误地标记为因资源不足而停止。

问题现象

当用户在设置了资源配额限制的命名空间中创建虚拟机时，可能会出现以下矛盾现象：

在Webhook验证阶段，系统认为资源足够，允许创建虚拟机
但在虚拟机控制器实际启动阶段，系统却错误地认为资源不足，强制停止虚拟机
虚拟机状态被标记为"halted"，并附带"cpu insufficient resources due to resource quota"的错误信息

技术分析

根本原因

经过深入分析，我们发现问题的根源在于时间序列上的竞争条件：

Webhook检查阶段：此时虚拟机对应的Pod尚未创建，系统正确计算了剩余资源配额，判断资源足够。
控制器执行阶段：此时虚拟机Pod可能已经创建但资源配额尚未更新，控制器在计算已使用配额时：
- 包含了当前虚拟机自身的Pod资源占用
- 没有排除当前虚拟机的资源请求
- 导致错误地认为资源不足

代码层面分析

问题主要出现在虚拟机控制器的资源配额检查逻辑中。具体来说：

Webhook验证器(pkg/webhook/resources/virtualmachine/validator.go)和虚拟机控制器(pkg/controller/master/virtualmachine/vm_controller.go)都调用了相同的资源配额检查方法
但虚拟机控制器没有考虑自身Pod已经占用资源的情况，导致重复计算
这种设计在集群重启等场景下尤为明显，多个虚拟机同时启动时容易出现资源计算错误

解决方案

修复方案主要包含以下关键点：

改进资源配额计算逻辑：在检查资源配额时，需要排除当前虚拟机自身的资源占用，避免重复计算。
增强状态处理：当检测到资源不足时，更精确地设置虚拟机状态，并提供清晰的错误信息。
优化时间序列处理：确保资源配额更新和Pod创建的顺序一致性，减少竞争条件的发生概率。

测试验证

我们设计了详细的测试方案来验证修复效果：

创建具有特定资源配额限制(如2500m CPU和3Gi内存)的命名空间
在该命名空间中创建配置为2核CPU和2Gi内存的虚拟机
反复执行创建、删除、启动、停止等操作
验证资源配额使用统计的正确性
确认虚拟机在各种操作下都能正确启动

测试结果表明，修复后的版本能够正确处理资源配额计算，消除了原先的错误停止问题。

未来优化方向

虽然当前修复解决了主要问题，但从架构角度看，我们还可以考虑以下优化：

简化资源配额管理：评估是否可以将部分检查逻辑交由Kubernetes原生机制处理，减少自定义代码的复杂度。
改进用户体验：当资源确实不足时，提供更友好的错误提示和解决建议。
自动化恢复机制：当资源配额调整后，考虑自动恢复之前因资源不足而停止的虚拟机。

总结

本次修复解决了Harvester中虚拟机控制器资源配额计算的关键缺陷，提升了系统在资源受限环境下的稳定性和可靠性。通过精确计算资源使用情况，避免了不必要的虚拟机停止，为用户提供了更一致的操作体验。这一改进对于生产环境中需要精确控制资源分配的场景尤为重要。

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。