首页
/ Harvester升级后Rancher Pod处于Pending状态问题分析

Harvester升级后Rancher Pod处于Pending状态问题分析

2025-06-15 21:37:40作者:牧宁李

问题现象

在Harvester 1.3.2版本升级到1.4.0版本后,用户发现Rancher相关的Pod一直处于Pending状态。具体表现为:

  1. 多个Rancher Pod无法正常调度
  2. 事件日志显示调度失败原因是节点不满足Pod反亲和性规则
  3. 系统中有旧的ReplicaSet未被正确清理
  4. 升级到1.4.1版本后问题依然存在

根本原因分析

经过深入分析,该问题主要由以下几个因素共同导致:

  1. 节点资源限制:用户环境中只有2个物理节点和1个witness节点,而witness节点仅用于运行etcd工作负载,不参与常规Pod调度。

  2. Pod反亲和性规则:Rancher部署配置了严格的Pod反亲和性规则,要求Rancher Pod不能运行在同一个节点上。

  3. ReplicaSet清理不彻底:升级过程中旧的Rancher ReplicaSet未被完全清理,残留的Pod占用了调度位置。

  4. 副本数配置问题:系统默认配置了3个Rancher副本,但在只有2个可用节点的环境中无法满足调度要求。

技术细节

调度失败分析

从事件日志可以看到具体的调度失败原因:

0/3 nodes are available: 
1 node(s) had untolerated taint {node-role.kubernetes.io/etcd: true}, 
2 node(s) didn't match pod anti-affinity rules.

这表明:

  1. witness节点带有etcd污点,不允许运行常规工作负载
  2. 两个物理节点上已经运行了Rancher Pod,无法再调度新的Pod

ReplicaSet状态异常

系统同时存在多个Rancher ReplicaSet:

rancher-5b4d5fb54    3         3         2       18m
rancher-66db9cff46   0         0         0       180d
rancher-7d8b85cf5b   0         0         0       86d
rancher-c56dcc99     0         0         0       180d

这种状态表明升级过程中新旧版本ReplicaSet并存,资源清理不彻底。

解决方案

临时解决方案

  1. 手动调整副本数:对于2节点环境,可以将Rancher副本数调整为2:

    kubectl scale replicaset -n cattle-system rancher-5b4d5fb54 --replicas=2
    
  2. 清理旧ReplicaSet

    kubectl scale replicaset -n cattle-system rancher-7d8b85cf5b --replicas=0
    

注意:执行此操作可能导致短暂的API访问中断。

长期解决方案

  1. 环境规划:对于生产环境,建议至少配置3个常规节点,避免使用witness节点架构。

  2. 升级前检查:在升级前确保旧版本资源已完全清理。

  3. 配置调整:根据实际节点数量调整Rancher的副本数配置。

最佳实践建议

  1. 升级前准备

    • 检查当前Rancher资源状态
    • 备份关键配置
    • 确保有足够的节点资源
  2. 升级后验证

    • 检查所有Pod状态
    • 验证API访问
    • 检查日志是否有异常
  3. 监控设置

    • 设置对Pending Pod的告警
    • 监控资源使用情况

总结

Harvester升级过程中Rancher Pod处于Pending状态的问题主要源于节点资源不足和升级过程中的资源清理不彻底。通过合理规划节点资源、正确配置副本数以及执行彻底的升级前清理,可以有效避免此类问题。对于已经出现问题的环境,可以按照文中提供的解决方案进行修复。

登录后查看全文
热门项目推荐
相关项目推荐