Harvester升级故障排查:1.4.0至1.4.1版本升级卡死问题解析
2025-06-14 23:43:52作者:殷蕙予
问题现象
在Harvester虚拟化管理平台从1.4.0版本升级至1.4.1版本的过程中,部分用户遇到了升级进程长时间卡顿的情况。具体表现为:
- 首次升级尝试时,进度条停滞超过48小时无响应
- 强制删除升级对象后,再次尝试升级时出现关键错误提示:
admission webhook "validator.harvesterhci.io" denied the request: managed chart hvst-upgrade-rqqrp-upgradelog-operator is not ready, please wait for it to be ready.
根本原因分析
该问题源于升级过程中遗留的CRD(Custom Resource Definition)资源未完全清理。当升级流程被异常中断时,系统会残留名为hvst-upgrade-rqqrp-upgradelog-operator的managedchart资源对象,该对象属于Harvester的升级日志组件。
由于Kubernetes的准入控制器会持续校验该资源状态,而残留对象又无法自动恢复,导致后续升级尝试被webhook强制拦截。
解决方案
标准处理流程
-
通过kubectl检查残留资源:
kubectl get managedchart -A | grep upgradelog-operator -
手动清理残留对象(注意替换实际对象名称):
kubectl delete managedchart hvst-upgrade-rqqrp-upgradelog-operator -n harvester-system -
重新发起升级时,在界面中取消勾选"Upgrade Log"选项
预防性建议
- 在升级前确保集群有足够的资源余量(至少20%CPU/内存空闲)
- 使用
kubectl get pods -A确认所有系统组件处于健康状态 - 建议在业务低峰期执行升级操作
技术深度解读
Harvester的升级机制基于以下关键技术栈:
- Fleet管理:通过Rancher Fleet管理集群组件生命周期
- Helm Chart:所有组件以Helm Chart形式部署
- CRD控制:使用Custom Resource管理升级状态
当升级中断时,系统会保留中间状态资源以便故障恢复。但某些情况下(如资源不足或网络问题),这些中间状态资源可能无法自动清理,需要人工介入。
最佳实践
-
建立升级前检查清单:
- 确认etcd集群健康状态
- 检查长期存储卷的可用空间
- 验证网络连接稳定性
-
升级过程监控要点:
- 关注
cattle-system和harvester-system命名空间的Pod状态 - 实时查看升级Job日志:
kubectl logs -f <upgrade-pod>
- 关注
-
回退方案:
- 保留升级前的虚拟机快照
- 准备1.4.0版本的ISO镜像备用
后续版本改进
Harvester开发团队已在后续版本中优化了以下方面:
- 增加升级超时自动回滚机制
- 完善资源清理流程
- 增强升级状态可视化展示
建议用户关注官方发布说明,及时升级到最新稳定版本以获得最佳体验。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0199
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0130
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python08
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
770
5.02 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
692
1.36 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
865
1.96 K
Ascend Extension for PyTorch
Python
728
905
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
461
455
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.09 K
1.12 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.93 K
199
openJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力
TSX
3.09 K
643
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.02 K
265