Harvester升级后Rancher Pod处于Pending状态问题分析

2025-06-15 16:57:09作者：牧宁李

Harvester 是一个现代、开放、互操作的超融合基础设施（HCI）解决方案，基于 Kubernetes 构建。它为寻求云原生 HCI 解决方案的运营商提供了一个开源替代方案。Harvester 运行在裸金属服务器上，提供集成的虚拟化和分布式存储功能。除了传统的虚拟机（VM），Harvester 还通过与 Rancher 的集成支持容器化环境，统一了传统虚拟化基础设施，同时促进了从核心到边缘的容器采用。

项目地址：https://gitcode.com/gh_mirrors/har/harvester

问题现象

在Harvester 1.3.2版本升级到1.4.0版本后，用户发现Rancher相关的Pod一直处于Pending状态。具体表现为：

多个Rancher Pod无法正常调度
事件日志显示调度失败原因是节点不满足Pod反亲和性规则
系统中有旧的ReplicaSet未被正确清理
升级到1.4.1版本后问题依然存在

根本原因分析

经过深入分析，该问题主要由以下几个因素共同导致：

节点资源限制：用户环境中只有2个物理节点和1个witness节点，而witness节点仅用于运行etcd工作负载，不参与常规Pod调度。
Pod反亲和性规则：Rancher部署配置了严格的Pod反亲和性规则，要求Rancher Pod不能运行在同一个节点上。
ReplicaSet清理不彻底：升级过程中旧的Rancher ReplicaSet未被完全清理，残留的Pod占用了调度位置。
副本数配置问题：系统默认配置了3个Rancher副本，但在只有2个可用节点的环境中无法满足调度要求。

技术细节

调度失败分析

从事件日志可以看到具体的调度失败原因：

0/3 nodes are available: 
1 node(s) had untolerated taint {node-role.kubernetes.io/etcd: true}, 
2 node(s) didn't match pod anti-affinity rules.

这表明：

witness节点带有etcd污点，不允许运行常规工作负载
两个物理节点上已经运行了Rancher Pod，无法再调度新的Pod

ReplicaSet状态异常

系统同时存在多个Rancher ReplicaSet：

rancher-5b4d5fb54    3         3         2       18m
rancher-66db9cff46   0         0         0       180d
rancher-7d8b85cf5b   0         0         0       86d
rancher-c56dcc99     0         0         0       180d

这种状态表明升级过程中新旧版本ReplicaSet并存，资源清理不彻底。

解决方案

临时解决方案

手动调整副本数：对于2节点环境，可以将Rancher副本数调整为2：
```
kubectl scale replicaset -n cattle-system rancher-5b4d5fb54 --replicas=2
```

清理旧ReplicaSet：

kubectl scale replicaset -n cattle-system rancher-7d8b85cf5b --replicas=0

注意：执行此操作可能导致短暂的API访问中断。

长期解决方案

环境规划：对于生产环境，建议至少配置3个常规节点，避免使用witness节点架构。
升级前检查：在升级前确保旧版本资源已完全清理。
配置调整：根据实际节点数量调整Rancher的副本数配置。

最佳实践建议

升级前准备：
- 检查当前Rancher资源状态
- 备份关键配置
- 确保有足够的节点资源
升级后验证：
- 检查所有Pod状态
- 验证API访问
- 检查日志是否有异常
监控设置：
- 设置对Pending Pod的告警
- 监控资源使用情况

总结

Harvester升级过程中Rancher Pod处于Pending状态的问题主要源于节点资源不足和升级过程中的资源清理不彻底。通过合理规划节点资源、正确配置副本数以及执行彻底的升级前清理，可以有效避免此类问题。对于已经出现问题的环境，可以按照文中提供的解决方案进行修复。

harvester

项目地址：https://gitcode.com/gh_mirrors/har/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统