Harvester项目中虚拟机迁移时资源配额的竞态问题分析与修复

2025-06-15 15:55:05作者：侯霆垣

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题背景

在Harvester与Rancher集成的环境中，当虚拟机(VM)进行迁移操作时，系统会出现资源配额(resourcequota)管理的竞态条件问题。这一问题主要发生在以下场景：

用户通过Rancher界面管理Harvester集群中的虚拟机
虚拟机在命名空间(namespace)中设置了资源配额限制
当虚拟机执行迁移操作时，Harvester和Rancher会同时对资源配额进行更新

技术原理分析

在Kubernetes生态中，资源配额是限制命名空间内资源使用的重要机制。Harvester作为基于Kubernetes构建的虚拟机管理平台，需要与Rancher的资源配额管理功能协同工作。

当虚拟机迁移发生时，系统会在目标节点上创建新的虚拟机实例，同时源节点上的旧实例仍然存在。这种"新旧并存"的状态会导致资源配额计算出现偏差：

迁移过程中，系统会临时占用双倍资源（源实例+目标实例）
Rancher的资源配额控制器会检测到资源使用量突然增加
Harvester的资源管理器也会尝试调整配额以适应迁移需求

问题表现

在实际运行中，这个问题表现为：

用户设置了命名空间的资源配额限制（如CPU 5000m，内存6000MiB）
创建多个虚拟机并启动后，资源使用量接近配额上限
执行虚拟机迁移时，资源配额计算出现异常波动
如果在此期间删除cattle-cluster-agent Pod，可能导致配额配置回滚到原始值

解决方案

开发团队通过以下方式解决了这一竞态问题：

协调Harvester和Rancher对资源配额的更新逻辑
确保迁移过程中资源配额计算的准确性
处理控制器重启时的状态恢复问题

修复后的系统能够：

在迁移过程中正确计算临时资源需求
避免因控制器重启导致的配额配置回滚
维持资源配额限制的稳定性和一致性

验证方法

测试团队通过以下步骤验证了修复效果：

创建带资源配额限制的项目和命名空间
部署多个虚拟机并使其资源使用接近配额上限
执行虚拟机迁移操作
观察资源配额配置的动态调整过程
模拟控制器重启场景，验证配置的稳定性

技术意义

这一修复对于生产环境具有重要意义：

提高了虚拟机迁移操作的可靠性
确保了资源配额管理的准确性
增强了Harvester与Rancher集成的稳定性
为大规模虚拟机管理提供了更健壮的基础

该修复已包含在Harvester v1.4版本中，建议用户升级以获得更稳定的资源管理体验。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271