KEDA证书轮换问题分析与解决方案

2025-05-26 18:38:49作者：秋阔奎Evelyn

KEDA is a Kubernetes-based Event Driven Autoscaling component. It provides event driven scale for any container running in Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ke/keda

问题背景

在Kubernetes事件驱动自动扩缩容工具KEDA 2.16.1版本中，用户报告了一个关于证书轮换机制的问题。当KEDA运行在Kubernetes 1.29以下版本的AWS环境中时，其内置的证书轮换功能可能会意外中断服务，导致自动扩缩容功能失效。

问题现象

KEDA操作器（keda-operator）在证书轮换过程中会记录以下关键错误日志：

Error updating webhook with certificate {"error": "Operation cannot be fulfilled on apiservices.apiregistration.k8s.io \"v1beta1.external.metrics.k8s.io\": the object has been modified; please apply your changes to the latest version and try again"}

当这个错误频繁出现时（约每6分钟一次），keda-metrics-api-server将无法连接到keda-operator，最终导致水平Pod自动扩缩容（HPA）功能失效，表现为无法获取外部指标的错误。

根本原因分析

并发修改冲突：错误信息表明在尝试更新API服务资源时，该资源已被其他进程修改，导致版本冲突。这种情况通常发生在多个控制器或操作同时尝试修改同一资源时。
与GitOps工具的潜在交互：虽然用户确认没有使用ArgoCD管理核心KEDA组件，但集群中存在的GitOps工具可能间接影响相关资源的修改。
证书轮换机制设计：KEDA使用cert-controller进行证书管理，默认生成的证书有效期为10年。轮换过程本应是后台静默操作，不应影响服务可用性，但在特定情况下可能导致服务中断。

解决方案

临时解决方案

禁用证书轮换：通过设置--enable-cert-rotation=false参数禁用自动轮换功能。由于默认证书有效期为10年，这在短期内是可行的解决方案。
重启操作器：当问题发生时，重启keda-operator可以暂时恢复服务。

长期解决方案

使用cert-manager：如果集群中已部署cert-manager，建议将证书管理委托给cert-manager处理。这可以通过KEDA Helm chart的配置实现。
升级Kubernetes版本：考虑升级到Kubernetes 1.29或更高版本，可能包含相关修复。
监控证书状态：即使禁用自动轮换，也应定期监控证书有效期，确保在证书过期前手动更新。

技术细节

KEDA的证书轮换机制基于open-policy-agent/cert-controller实现，主要处理两种资源：

ValidatingWebhookConfiguration（keda-admission）
APIService（v1beta1.external.metrics.k8s.io）

当轮换过程失败时，虽然设计上不应影响正在运行的服务，但在实际环境中可能导致metrics API服务器与操作器之间的通信中断。

最佳实践建议

生产环境考虑：对于关键业务环境，建议使用cert-manager进行证书管理，它提供了更成熟的证书生命周期管理能力。
版本选择：评估升级到KEDA最新稳定版本的可行性，新版本可能已修复此类问题。
监控告警：配置对KEDA组件健康状态的监控，特别是证书相关错误日志的告警。
测试验证：在非生产环境充分测试证书轮换场景，验证系统行为是否符合预期。

通过理解这一问题及其解决方案，KEDA用户可以更好地规划和管理他们的自动扩缩容基础设施，确保业务连续性。

KEDA is a Kubernetes-based Event Driven Autoscaling component. It provides event driven scale for any container running in Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ke/keda

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库