kube-state-metrics中CustomResourceStateMetrics指标重复采样问题解析

2025-06-06 21:01:02作者：霍妲思

问题背景

在使用kube-state-metrics的CustomResourceStateMetrics功能时，开发者可能会遇到指标重复采样的问题。具体表现为：当配置了从自定义资源状态中提取特定条件状态的指标时，系统会生成多个相同标签但不同值的样本，而实际上我们只需要一个准确的样本。

问题现象

以监控Serverless Function资源为例，开发者配置了从Function自定义资源的status.conditions中提取type为"ConfigurationReady"的条件状态作为指标。预期只生成一个指标样本，但实际上系统生成了多个重复样本，其中只有一个样本的值是正确的（1表示True），其他样本的值都为0。

技术原理分析

CustomResourceStateMetrics工作机制

kube-state-metrics的CustomResourceStateMetrics功能允许用户通过YAML配置来定义如何从自定义资源中提取指标。当配置中包含each和gauge时，系统会遍历指定路径下的所有键值对来生成指标。

问题根源

问题的关键在于配置中的路径解析方式。当使用path: [status, conditions, "[type=ConfigurationReady]"]这样的配置时：

系统首先会定位到匹配type=ConfigurationReady的条件对象
然后由于配置了each，系统会遍历这个条件对象的所有字段
对于每个字段，系统都会尝试从valueFrom指定的路径（这里是[status]）获取值
当nilIsZero设置为true时，所有无法从指定路径获取值的字段都会生成值为0的样本

因此，一个条件对象包含多个字段（如lastTransitionTime、message、reason、status、type），就会生成多个样本，其中只有status字段能正确映射到值。

解决方案

优化配置方案

正确的配置应该直接定位到需要提取值的具体字段，而不是遍历整个对象。修改后的配置示例如下：

metrics:
- commonLabels:
    type: ConfigurationReady
  labelsFromPath:
    reason: [status, conditions, "[type=ConfigurationReady]", reason]
  each:
    gauge:
      path: [status, conditions, "[type=ConfigurationReady]", status]
      nilIsZero: true
    type: Gauge
  help: function condition
  name: function_condition