Harvester单节点集群升级卡顿问题分析与解决方案

2025-06-15 01:18:13作者：咎竹峻Karen

在Harvester虚拟化管理平台的使用过程中，用户可能会遇到从1.3.2版本升级到1.4版本时出现的系统服务升级卡顿问题。本文将深入分析该问题的技术背景、原因及解决方案。

问题现象

当用户在单节点Harvester集群上执行1.3.2到1.4版本的升级时，系统可能会在"升级系统服务"阶段停滞，进度条停留在50%位置。通过日志分析可以发现，升级过程实际上是在等待fleet系统组件的升级完成。

技术背景

Harvester的升级机制依赖于多个核心组件，其中fleet作为Rancher的集群管理工具，在升级过程中扮演重要角色。在1.4版本中，fleet需要从0.9.5版本升级到0.10.2版本。

根本原因

通过分析发现，问题主要由以下因素导致：

helm升级过程中出现了pending-upgrade状态卡住
缺少必要的fleet-default命名空间
单节点环境下资源调度限制

解决方案

对于遇到此问题的用户，可以按照以下步骤进行修复：

检查fleet系统状态：

helm history -n cattle-fleet-system fleet

创建缺失的命名空间：
```
kubectl create ns fleet-default
```

回滚到稳定版本：

helm rollback fleet -n cattle-fleet-system [稳定版本号]

重新触发升级流程

预防措施

为了避免类似问题，建议用户：

在升级前确保系统资源充足
检查所有核心命名空间是否存在
对于生产环境，建议使用多节点集群
升级前备份重要数据

技术总结

该问题揭示了分布式系统升级过程中的依赖管理复杂性。Harvester团队已将此问题记录为已知问题，并在后续版本中优化了升级流程的健壮性。用户在进行版本升级时，应充分了解版本变更内容，并做好应急预案。

通过理解这些技术细节，用户可以更好地管理Harvester集群，确保升级过程顺利完成。

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

265

Harvester单节点集群升级卡顿问题分析与解决方案

问题现象

技术背景

根本原因

解决方案

预防措施

技术总结

热门内容推荐

最新内容推荐

项目优选

Harvester单节点集群升级卡顿问题分析与解决方案

问题现象

技术背景

根本原因

解决方案

预防措施

技术总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选