Harvester升级过程中节点卡在预排空状态的故障分析与解决方案

2025-06-14 02:23:26作者：邓越浪Henry

问题现象

在Harvester集群从v1.4.0版本升级到v1.4.1-rc1版本的过程中，部分节点会卡在"Pre-drained"(预排空)状态，同时节点保持"Cordoned"(不可调度)状态。这种状况会导致整个升级流程无法继续推进。

经过深入排查，发现问题源于Longhorn存储系统的实例管理器(Instance Manager)组件存在一个已知问题。具体表现为：

在Kubernetes集群升级过程中，Harvester会执行以下关键步骤：

当Longhorn实例管理器错误报告卷状态时，第二步的排空操作会被PDB机制阻止。PDB是Kubernetes中用于保证应用可用性的机制，它会确保在维护操作期间至少保留一定数量的Pod实例。

对于遇到此问题的用户，可以按照以下步骤手动解决：

具体操作命令示例：

kubectl delete pdb [实例管理器名称] -n longhorn-system

Harvester开发团队已经意识到这个问题的严重性，并在以下方面开展工作：

为避免在升级过程中遇到此类问题，建议用户：

Harvester集群升级过程中节点卡在预排空状态的问题，主要是由于Longhorn组件状态报告不一致导致的。虽然可以通过手动干预解决，但用户应关注后续版本中提供的永久性修复方案。对于生产环境，建议在非关键时段进行升级操作，并确保有完整的备份方案。

登录后查看全文