Flux2 中 HelmRelease 监控指标的变更与解决方案

2025-05-31 14:27:52作者：伍希望

背景介绍

在 Kubernetes 生态系统中，Flux2 是一个广受欢迎的 GitOps 工具，它通过声明式的方式管理集群状态。其中 HelmRelease 资源是 Flux2 用来管理 Helm Chart 部署的核心组件。在 Flux2 的监控体系中，Prometheus 指标对于运维团队了解系统状态至关重要。

问题描述

在 Flux2 版本升级过程中，用户发现从 2.1.1 升级到 2.2.2/2.2.3 后，原本由 helm-controller 提供的 gotk_reconcile_condition 指标（特别是针对 HelmRelease 类型的指标）不再可用。这个指标对于监控 HelmRelease 资源的状态变化非常重要，它能够反映 HelmRelease 是否处于就绪状态（Ready）。

技术分析

指标变更原因

在 Flux2 2.1.1 版本中，helm-controller 直接暴露了 HelmRelease 的 gotk_reconcile_condition 指标。但在后续版本中，这部分指标的生成逻辑被重构，改为通过 kube-state-metrics (KSM) 来提供这些资源级别的指标。

新旧版本对比

2.1.1 版本：直接由 helm-controller 提供指标

gotk_reconcile_condition{kind="HelmRelease",name="sealed-secrets",namespace="sealed-secrets",status="True",type="Ready"} 1

2.2.2+ 版本：改为通过 kube-state-metrics 提供 gotk_resource_info 指标

监控架构变化

这种变化反映了 Flux2 监控架构的演进：

控制器专注于暴露操作层面的指标（如重试次数、处理时间等）
资源状态指标统一由 kube-state-metrics 负责
这种分离使得监控职责更加清晰，也便于统一管理

解决方案

配置 kube-state-metrics

要恢复 HelmRelease 的监控指标，需要为 kube-state-metrics 添加 Flux2 特定的配置：

metrics:
  customResourceState: true
  customResourceStateConfig:
    resources:
    - group: "helm.toolkit.fluxcd.io"
      versions: ["v2beta2"]
      resources: ["helmreleases"]
      labels:
        - "revision"
        - "chart"
        - "version"

监控系统集成

Prometheus 配置：
- 确保 kube-state-metrics 被正确抓取
- 验证 gotk_resource_info 指标是否可用
Grafana 仪表板：
- 更新仪表板查询，使用 gotk_resource_info 替代原来的 gotk_reconcile_condition
- 调整标签选择逻辑以适应新的指标结构
Datadog 用户：
- 由于 Datadog 无法直接配置 kube-state-metrics，可以考虑：
  - 使用 Prometheus 作为中间层
  - 开发自定义检查来获取这些指标

最佳实践

版本升级检查清单：
- 检查监控配置是否兼容新版本
- 预先更新仪表板和告警规则
- 测试监控系统在新版本下的表现
多监控系统支持：
- 对于使用多种监控工具的环境，建议统一通过 Prometheus 收集指标
- 使用 Prometheus 的远程写入功能将指标转发到其他系统
指标迁移策略：
- 保留旧指标查询一段时间
- 逐步过渡到新指标
- 更新文档和团队知识库