Harvester项目升级故障分析与解决方案：从1.4.2到1.5.0的升级挑战

2025-06-14 19:38:56作者：明树来

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

问题背景

在Harvester集群从1.4.2版本升级到1.5.0版本的过程中，用户遇到了节点升级卡顿的问题。具体表现为：系统升级成功后，3个节点中有2个成功升级，但第3个节点（harvester4）长时间停留在"images preloaded"状态，导致整个升级流程无法完成。

故障现象分析

通过深入分析支持包和系统日志，我们发现以下关键问题点：

节点状态不一致：虽然Kubernetes集群显示3个节点，但系统中存在多余的节点设备记录和机器对象，表明之前删除节点时未完全清理干净。
升级流程阻塞：升级控制器在harvester4节点上卡在"images preloaded"阶段，无法继续后续的节点升级流程。
节点元数据问题：/etc/os-release文件显示节点仍运行在v1.4.2版本，而其他组件已升级到v1.5.0，表明节点操作系统升级未完成。

根本原因

经过技术团队深入排查，确定问题主要由以下因素导致：

残留的机器对象：系统中存在已删除节点（harvester2）的残留机器对象，干扰了升级流程的正常执行。
节点升级流程中断：升级过程中某些步骤（如drain操作）未能正确完成，导致升级流程无法继续。
证书过期问题：初期支持包生成失败与系统证书过期有关，虽然这不是升级失败的直接原因，但影响了故障诊断过程。

解决方案

针对上述问题，我们推荐以下解决步骤：

清理残留对象：
- 删除无效的机器对象（如custom-1d1de6c3ae63和custom-9626842a1f91）
- 移除不再使用的节点设备记录（如harvester2）
修复升级流程：
- 执行post-drain脚本完成被中断的drain操作
- 手动删除卡住的升级CR（hvst-upgrade-zjft7）
- 重新触发升级流程
节点修复：
- 对于无法自动升级的节点（harvester4），建议考虑重新加入集群
- 检查节点网络和存储配置，确保升级环境正常

技术细节与最佳实践

升级前检查：
- 使用kubectl get machines -n fleet-local检查机器对象状态
- 验证/etc/os-release文件内容与当前版本一致
- 确保所有节点证书有效
升级过程监控：
- 关注升级CR的状态变化
- 检查节点drain操作的完成情况
- 监控系统组件的版本一致性
故障处理技巧：
- 使用drain-status.sh脚本诊断节点升级状态
- 分析支持包中的yaml目录获取集群配置详情
- 检查Provisioning Cluster资源的状态信息

经验总结

版本兼容性：跨版本升级（特别是从1.4.x到1.5.0）需要更加谨慎，建议先在测试环境验证。
资源清理：删除节点时务必确认所有相关资源（机器对象、节点设备记录等）已完全清理。
监控工具：掌握支持包分析工具的使用方法，能够快速定位升级问题。
流程理解：深入理解Harvester升级流程的各个阶段（镜像准备、节点drain、系统服务升级等），有助于快速诊断问题。

通过本次故障处理，我们不仅解决了具体的升级问题，也为Harvester集群的维护积累了宝贵经验。建议用户在升级前充分准备，升级过程中密切监控，遇到问题时及时收集完整信息以便快速诊断。

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。