Harvester集群升级卡顿问题分析与解决方案

2025-06-14 13:00:22作者：苗圣禹Peter

问题现象

在Harvester 1.4.0版本升级至1.4.1的过程中，用户遇到了升级过程卡顿的情况。具体表现为：

升级过程持续超过2天未完成
3节点集群中2个节点（包括见证节点）已完成升级并正常重启
最后一个节点(t7920)长时间未完成升级
关键系统组件（如longhorn-system/backing-image-manager）持续重启循环
多个核心服务（harvester-network-controller-manager等）处于非就绪状态

根本原因分析

通过技术分析，这种情况通常由以下几个因素导致：

节点资源竞争：最后一个节点可能因资源不足导致关键组件无法正常启动
组件依赖关系：某些系统服务（如Longhorn存储组件）未能正确初始化，阻塞了后续升级流程
集群协调问题：当多数节点完成升级后，剩余节点可能因集群仲裁问题导致升级流程停滞

解决方案

对于此类升级卡顿问题，建议采取以下步骤：

检查节点状态：
- 确认节点网络连接正常
- 检查节点资源使用情况（CPU/内存/存储）
- 验证节点与集群其他成员的通信状态
手动干预措施：
```
# 安全地重启问题节点
sudo reboot now
```
重启后，系统通常会：
- 重新加入集群
- 继续中断的升级流程
- 自动完成必要的组件更新
升级后验证：
- 检查所有节点版本一致性
- 验证核心服务副本数恢复正常
- 确认存储系统（Longhorn）状态健康

最佳实践建议

为避免类似问题，建议：

升级前准备：
- 确保集群所有节点资源充足
- 提前做好重要数据备份
- 选择业务低峰期进行升级
监控升级过程：
- 实时关注各节点升级进度
- 记录关键组件的启动日志
- 准备必要时的手动干预方案
故障恢复预案：
- 制定详细的回滚方案
- 准备技术支持联系方式
- 记录完整的操作日志

总结

Harvester作为基于Kubernetes的HCI解决方案，其升级过程涉及多个组件的协调更新。遇到升级卡顿时，合理的诊断和适度的干预可以有效解决问题。通过本文的分析和解决方案，用户应能够更好地理解和处理类似情况，确保集群升级顺利完成。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook