首页
/ Grafana Mimir分布式部署中的KEDA自动伸缩机制解析

Grafana Mimir分布式部署中的KEDA自动伸缩机制解析

2025-06-13 10:57:15作者:郁楠烈Hubert

概述

Grafana Mimir作为一款开源的长期存储解决方案,其分布式部署模式支持通过KEDA(Kubernetes Event-driven Autoscaling)实现自动伸缩功能。本文将深入分析Mimir分布式部署中distributor组件的KEDA自动伸缩配置原理,特别是CPU和内存指标的阈值计算方式。

KEDA自动伸缩配置

在Mimir的Helm chart中,distributor组件的自动伸缩可以通过以下配置开启:

distributor:
  kedaAutoscaling:
    enabled: true
    preserveReplicas: false
    minReplicaCount: 1
    maxReplicaCount: 10
    targetCPUUtilizationPercentage: 70
    targetMemoryUtilizationPercentage: 70
    behavior:
      scaleDown:
        policies:
          - periodSeconds: 600
            type: Percent
            value: 10

这个配置会生成一个ScaledObject资源,其中包含两个Prometheus查询触发器:一个用于CPU使用率监控,另一个用于内存使用监控。

CPU自动伸缩机制

CPU自动伸缩的阈值计算基于以下公式:

阈值 = 容器CPU请求量 × (targetCPUUtilizationPercentage/100)

例如,当CPU请求量为250m(0.25核),目标利用率为25%时:

250m × 0.25 = 62.5m → 向下取整为62m

KEDA生成的Prometheus查询会计算过去15分钟内每个distributor pod的平均CPU使用率(单位:核),然后乘以1000转换为毫核(millicores):

max_over_time(sum(sum by (pod) (rate(container_cpu_usage_seconds_total{...}[5m])))[15m:]) * 1000

内存自动伸缩机制

内存阈值的计算类似:

阈值 = 容器内存请求量 × (targetMemoryUtilizationPercentage/100)

Prometheus查询会监控工作集内存使用量,并考虑OOMKilled事件:

max_over_time(sum((sum by (pod) (container_memory_working_set_bytes{...}) or vector(0))[15m:]) 
+ sum(sum by (pod) (max_over_time(kube_pod_container_resource_requests{...}[15m])) 
and max by (pod) (changes(kube_pod_container_status_restarts_total{...}[15m]) > 0) 
and max by (pod) (kube_pod_container_status_last_terminated_reason{..., reason="OOMKilled"}) 
or vector(0))

HPA指标显示解析

当查看生成的HPA资源时,可能会发现CPU指标的显示有些令人困惑:

54747m/62

这实际上是Kubernetes的显示特性,其中:

  • 54747m表示54.747核(54747/1000)
  • 62表示62毫核(0.062核)

这种显示方式虽然看起来不一致,但实际上是正确的,只是单位表示方式需要特别注意。

最佳实践建议

  1. 合理设置目标利用率:根据实际负载模式调整targetCPUUtilizationPercentage和targetMemoryUtilizationPercentage

  2. 监控指标验证:定期检查Prometheus查询返回的实际值与HPA显示值是否一致

  3. 资源请求配置:确保resources.requests设置合理,这是阈值计算的基础

  4. 缩放行为调优:通过behavior配置控制缩放速度,避免过于频繁的扩缩容

通过深入理解这些机制,用户可以更有效地配置和管理Mimir集群的自动伸缩功能,确保系统在负载变化时能够做出适当的响应。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
24
7
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
375
3.25 K
flutter_flutterflutter_flutter
暂无简介
Dart
619
140
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
62
19
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.03 K
479
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
647
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.09 K
619
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
790
76