Kubefirst项目部署中ArgoCD Redis HA组件调度问题分析

2025-07-06 15:56:26作者：胡易黎Nicole

问题背景

在使用Kubefirst平台进行Kubernetes集群部署时，用户反馈在部分云服务平台上反复遇到ArgoCD的Redis HA组件部署失败的问题。具体表现为argocd-redis-ha-haproxy部署无法就绪，导致整个安装流程中断。

问题现象

部署过程中，ArgoCD的Redis HA相关Pod（包括argocd-redis-ha-haproxy和argocd-redis-ha-server）持续处于Pending状态。通过查看Pod事件，发现调度失败的主要原因是"0/2 nodes are available: 2 node(s) didn't match pod anti-affinity rules"。

根本原因分析

经过深入排查，发现问题的核心在于Kubefirst平台对ArgoCD Redis HA组件的默认配置与集群节点数量的不匹配：

反亲和性规则：ArgoCD Redis HA组件配置了严格的反亲和性规则，要求每个Pod必须运行在不同的节点上，以避免单点故障。
副本数量固定：Redis HA组件默认配置了3个副本（包括haproxy和server组件），这是高可用架构的标准配置。
节点数量不足：用户仅配置了2个Worker节点，无法满足3个Pod必须分散在不同节点的调度要求。

技术细节

调度失败的具体表现

通过kubectl describe pod命令查看Pending状态的Pod详情，可以看到以下关键信息：

Pod反亲和性规则：系统试图将Pod调度到不同节点，但只有2个可用节点，无法满足3个Pod的分散部署需求。
自动扩缩容未触发：集群自动扩缩容系统（cluster-autoscaler）没有触发节点扩容，因为这是用户手动管理的集群。

Redis HA架构设计

ArgoCD的Redis HA实现采用了标准的主从复制+哨兵模式：

Redis Server：3个实例组成集群，1个主节点，2个从节点。
HAProxy：作为负载均衡器，将请求分发到健康的Redis实例。
Sentinel：监控Redis实例状态，自动处理主从切换。

这种架构要求至少3个节点才能保证高可用性，避免脑裂问题。

解决方案

针对这一问题，有以下几种解决方案：

增加节点数量：将Worker节点数量增加到至少3个，这是最推荐的解决方案，完全满足高可用要求。
调整反亲和性规则（不推荐）：
- 修改ArgoCD Helm Chart的values文件
- 放宽反亲和性规则要求
- 这种方法会降低系统的高可用性保障
减少副本数量（不推荐）：
- 将Redis和HAProxy的副本数减少到2个
- 这会显著降低系统的容错能力