Harvester升级检查脚本的优化与改进

2025-06-14 13:42:36作者：胡易黎Nicole

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

前言

在分布式存储系统Harvester的运维过程中，升级操作是一个关键环节。为了确保升级过程的顺利进行，Harvester提供了一个预升级检查脚本，用于在升级前检测系统中可能存在的问题。然而，在实际使用过程中，我们发现这个检查脚本存在一些需要改进的地方。

检查脚本存在的问题

节点名称显示不明确

在检查节点可用空间时，脚本仅显示节点的IP地址和可用空间大小，而没有显示节点的实际名称。这给系统管理员带来了不便，因为他们需要通过Web界面手动匹配IP地址和节点名称。

脚本执行中断问题

当检查过程中有存储卷被删除时，脚本会直接终止执行，而不是继续完成剩余的检查项。这种设计不够健壮，特别是在生产环境中，存储卷的动态变化是常见现象。

存储卷状态判断不准确

脚本将所有已分离(detached)的存储卷都标记为"降级"(Degraded)状态，而实际上这些卷可能完全健康，只是当前未被挂载。这种误判会给管理员带来不必要的困扰。

问题分析与改进方案

节点信息显示的改进

在节点空间检查部分，应该同时显示节点的IP地址和名称。这可以通过查询Kubernetes API获取节点对象来实现，将metadata.name字段与status.addresses字段结合显示。

异常处理的增强

对于存储卷被删除的情况，脚本应该捕获NotFound异常，记录警告信息后继续执行后续检查。这可以通过在检查逻辑中添加异常处理机制来实现。

存储卷状态判断的优化

存储卷状态的判断应该基于以下标准：

首先检查卷是否处于分离状态
对于已分离的卷，检查其副本数量是否符合配置要求
只有当副本数量不足时，才标记为"降级"状态

实施建议

对于Harvester运维团队，建议采取以下措施：

将改进后的检查脚本集成到Harvester支持包中，方便用户获取和使用
考虑将检查脚本预置在Harvester镜像中，并设置为升级前的自动检查步骤
对于分离状态的存储卷，在检查报告中明确标注其状态，而不是简单地标记为问题

总结

通过对Harvester预升级检查脚本的优化，可以显著提升升级过程的可操作性和可靠性。这些改进不仅解决了当前存在的问题，还为未来的运维工作提供了更好的工具支持。建议用户在升级前使用最新版本的检查脚本，确保系统状态的全面了解。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781