首页
/ Harvester升级后Rancher Pod处于Pending状态问题分析

Harvester升级后Rancher Pod处于Pending状态问题分析

2025-06-15 18:25:38作者:牧宁李

问题现象

在Harvester 1.3.2版本升级到1.4.0版本后,用户发现Rancher相关的Pod一直处于Pending状态。具体表现为:

  1. 多个Rancher Pod无法正常调度
  2. 事件日志显示调度失败原因是节点不满足Pod反亲和性规则
  3. 系统中有旧的ReplicaSet未被正确清理
  4. 升级到1.4.1版本后问题依然存在

根本原因分析

经过深入分析,该问题主要由以下几个因素共同导致:

  1. 节点资源限制:用户环境中只有2个物理节点和1个witness节点,而witness节点仅用于运行etcd工作负载,不参与常规Pod调度。

  2. Pod反亲和性规则:Rancher部署配置了严格的Pod反亲和性规则,要求Rancher Pod不能运行在同一个节点上。

  3. ReplicaSet清理不彻底:升级过程中旧的Rancher ReplicaSet未被完全清理,残留的Pod占用了调度位置。

  4. 副本数配置问题:系统默认配置了3个Rancher副本,但在只有2个可用节点的环境中无法满足调度要求。

技术细节

调度失败分析

从事件日志可以看到具体的调度失败原因:

0/3 nodes are available: 
1 node(s) had untolerated taint {node-role.kubernetes.io/etcd: true}, 
2 node(s) didn't match pod anti-affinity rules.

这表明:

  1. witness节点带有etcd污点,不允许运行常规工作负载
  2. 两个物理节点上已经运行了Rancher Pod,无法再调度新的Pod

ReplicaSet状态异常

系统同时存在多个Rancher ReplicaSet:

rancher-5b4d5fb54    3         3         2       18m
rancher-66db9cff46   0         0         0       180d
rancher-7d8b85cf5b   0         0         0       86d
rancher-c56dcc99     0         0         0       180d

这种状态表明升级过程中新旧版本ReplicaSet并存,资源清理不彻底。

解决方案

临时解决方案

  1. 手动调整副本数:对于2节点环境,可以将Rancher副本数调整为2:

    kubectl scale replicaset -n cattle-system rancher-5b4d5fb54 --replicas=2
    
  2. 清理旧ReplicaSet

    kubectl scale replicaset -n cattle-system rancher-7d8b85cf5b --replicas=0
    

注意:执行此操作可能导致短暂的API访问中断。

长期解决方案

  1. 环境规划:对于生产环境,建议至少配置3个常规节点,避免使用witness节点架构。

  2. 升级前检查:在升级前确保旧版本资源已完全清理。

  3. 配置调整:根据实际节点数量调整Rancher的副本数配置。

最佳实践建议

  1. 升级前准备

    • 检查当前Rancher资源状态
    • 备份关键配置
    • 确保有足够的节点资源
  2. 升级后验证

    • 检查所有Pod状态
    • 验证API访问
    • 检查日志是否有异常
  3. 监控设置

    • 设置对Pending Pod的告警
    • 监控资源使用情况

总结

Harvester升级过程中Rancher Pod处于Pending状态的问题主要源于节点资源不足和升级过程中的资源清理不彻底。通过合理规划节点资源、正确配置副本数以及执行彻底的升级前清理,可以有效避免此类问题。对于已经出现问题的环境,可以按照文中提供的解决方案进行修复。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
861
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K