KEDA中Azure存储队列自动扩展失效问题分析与解决方案

2025-05-26 07:36:41作者：龚格成

问题现象

在使用Kubernetes Event-driven Autoscaling (KEDA) 2.13.0版本时，发现基于Azure存储队列的自动扩展功能出现异常。具体表现为：当队列中有消息时，系统能够正确从0个副本扩展到1个副本，但无论队列中积压多少消息（测试中达到20条），系统始终无法扩展到超过1个副本。

环境配置

Kubernetes版本：1.30.3
KEDA版本：2.13.0
运行环境：Azure Kubernetes Service (AKS)
扩展目标：自定义镜像应用，负责从队列中获取消息并处理

配置详情

ScaledObject配置如下：

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: queue-so
spec:
  scaleTargetRef:
    name: pet-predictor
  pollingInterval: 30
  cooldownPeriod: 30
  minReplicaCount: 0
  maxReplicaCount: 10
  triggers:
  - type: azure-queue
    metadata:
      queueName: catfish22
      queueLength: '3'
      activationQueueLength: '0'
      connectionFromEnv: CONNECTION_STRING
      accountName: gjmfunky2
      cloud: AzurePublicCloud

问题排查过程

初始观察：
- 系统能够正确地从0副本扩展到1副本
- 当队列中有消息积压时，HPA显示指标值为0/3
- 没有明显的错误日志
HPA状态分析：
- 当没有消息时，HPA状态显示为ScalingDisabled
- 当有消息时，HPA状态变为ValidMetricFound，但当前指标值始终为0
版本兼容性检查：
- 发现KEDA组件版本不一致
- 主组件为2.13.0版本
- 但metrics-api-server仍运行在2.10.0版本

根本原因

问题的根本原因在于KEDA组件版本不一致，特别是metrics-api-server组件未能随主组件一起升级。这种版本不一致导致：

指标计算逻辑不匹配
内部API通信可能存在问题
较旧版本的metrics-api-server可能包含已知的Azure队列扩展问题

解决方案

完整升级KEDA：

helm upgrade keda kedacore/keda --version 2.15.1

手动验证组件版本：
- 检查所有KEDA相关Deployment的镜像版本
- 确保metrics-api-server版本与主组件一致
版本一致性原则：
- 在生产环境中，应确保所有KEDA组件版本完全一致
- 升级后验证所有Pod都使用了正确版本的镜像

经验总结

版本管理重要性：
- 微服务架构中，组件版本不一致可能导致难以排查的问题
- 升级时应检查所有相关组件的版本状态
监控建议：
- 部署Prometheus或OpenTelemetry监控
- 关注keda_scaler_metrics_value指标，可直接观察扩展器获取的原始指标值
测试策略：
- 升级后应进行全面的扩展测试
- 验证从0到N的完整扩展路径