Kiali Operator中HPA与副本数冲突问题的分析与解决

2025-06-24 23:07:43作者：邬祺芯Juliet

Kiali project, observability for the Istio service mesh

项目地址：https://gitcode.com/gh_mirrors/ki/kiali

Kiali作为Istio生态中的重要可视化组件，其Operator实现中近期发现了一个关于Horizontal Pod Autoscaler(HPA)与副本数(replicas)配置冲突的问题。这个问题会导致当同时启用HPA和配置副本数时，系统出现不稳定的副本数波动现象。

问题现象

在Kiali Operator的Helm Chart配置中，当用户同时满足以下两个条件时，就会出现问题：

启用了HPA自动伸缩功能
在Kiali CR中显式设置了replicas参数

此时Kiali部署的Pod数量会在HPA设置的最小副本数和CR中指定的副本数之间不断波动。例如，当HPA配置minReplicas为3而CR中replicas设为1时，系统会不断在1个和3个Pod之间切换。

根本原因分析

这个问题源于Kiali Operator的设计实现方式。Operator在每次协调(Reconcile)循环中都会根据CR中的配置重新创建Deployment资源。当CR中包含replicas参数时，Operator会强制将Deployment的副本数设置为该值，这会覆盖HPA的调整结果。

具体来说，工作流程如下：

HPA根据指标自动将副本数调整为minReplicas(如3)
任何对Kiali CR的修改(包括ArgoCD等工具的同步操作)都会触发Operator的协调
Operator在协调过程中重新创建Deployment，并将副本数重置为CR中的值(如1)
HPA检测到副本数变化后再次调整到minReplicas
循环往复，导致副本数不稳定

解决方案

Kiali社区已经通过两个关键修改解决了这个问题：

Operator模板修改：在Deployment模板中添加条件判断，当HPA启用时不再设置spec.replicas字段。这样Kubernetes就会完全交由HPA来管理副本数。
Helm Chart默认值调整：在Helm Chart中，当检测到HPA启用时，不再向CR中注入默认的replicas值。这避免了用户未显式设置replicas时仍可能出现的冲突。

最佳实践建议

基于此问题的解决经验，对于在Kubernetes中使用HPA的用户，建议遵循以下原则：

单一管理原则：对于同一个工作负载，副本数应该只由一个控制器管理(HPA或手动配置)，避免多个控制源。
显式配置：当启用HPA时，应该在CR中明确不设置replicas参数，而不是依赖默认值。
版本升级：使用Kiali 1.87及以上版本的用户可以安全地同时使用HPA和副本配置，Operator会自动处理这种场景。

这个问题展示了Kubernetes中多个控制器协调资源时可能出现的典型冲突，也体现了Kiali社区对生产环境稳定性的重视。通过这次修复，Kiali在自动伸缩场景下的表现将更加稳定可靠。

Kiali project, observability for the Istio service mesh

项目地址：https://gitcode.com/gh_mirrors/ki/kiali

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。