KEDA项目中TLS证书失效导致自动扩缩容故障分析

2025-05-26 15:53:30作者：邓越浪Henry

问题背景

在Kubernetes环境中使用KEDA（Kubernetes Event-driven Autoscaling）2.13.1版本时，用户遇到了一个与TLS证书相关的自动扩缩容故障。该环境使用了CertManager来管理TLS证书，但突然发现基于Prometheus触发器的自动扩缩容功能停止工作。

故障现象

当故障发生时，KEDA创建的HPA（Horizontal Pod Autoscaler）无法正确计算副本数量，错误信息显示无法从外部指标API获取Prometheus指标。虽然指标本身可以正常查询，但HPA无法获取这些数据。

检查KEDA指标API服务器的日志时，发现了TLS握手失败的严重错误。错误信息表明证书验证失败，具体原因是"x509: certificate signed by unknown authority"，并提示可能是由于"x509: invalid signature: parent certificate cannot sign this kind of certificate"导致的。

根本原因分析

经过深入调查，发现问题根源在于KEDA组件之间的TLS证书验证机制：

证书轮换问题：虽然证书的有效期显示为2024年4月4日至2025年4月4日，但实际上证书在问题发生前几天已经更新。KEDA指标API服务器没有自动检测到证书变更并重新加载。
组件重启不一致：当KEDA Operator因OOM被杀后重启时，它会使用新证书，但指标API服务器仍在使用旧证书，导致TLS握手失败。
热加载缺失：当前KEDA实现中缺少对证书文件变更的监控机制，无法在证书更新时自动重新加载。

解决方案

针对这一问题，可以采取以下解决方案：

临时修复：重启keda-metrics-apiserver部署，强制其重新加载证书。
长期方案：
- 在KEDA中实现证书文件变更监控功能
- 当检测到证书变更时，自动重启相关服务
- 或者实现证书热加载功能，避免服务中断
运维建议：
- 在计划性证书轮换时，同时重启所有KEDA组件
- 监控KEDA组件的证书有效期和健康状态

经验总结

这个案例揭示了在Kubernetes Operator开发中几个重要考量点：

证书管理：需要妥善处理证书轮换场景，特别是当使用CertManager等自动化工具时。
组件协同：分布式系统中各组件需要协调处理配置变更，避免因部分组件更新而其他组件未更新导致的兼容性问题。
弹性设计：关键组件应具备自动恢复能力，如证书自动重加载、连接重试等机制。

对于使用KEDA的生产环境，建议密切关注证书管理相关组件的日志和状态，特别是在证书轮换周期前后，以确保自动扩缩容功能的持续可用性。

keda

KEDA is a Kubernetes-based Event Driven Autoscaling component. It provides event driven scale for any container running in Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ke/keda

登录后查看全文