Kubernetes kube-state-metrics中Endpoint地址重复问题深度解析

2025-06-06 05:02:41作者：史锋燃Gardner

问题背景

在Kubernetes监控体系中，kube-state-metrics作为关键组件，负责将Kubernetes对象状态转换为Prometheus可采集的指标。近期在Prometheus 2.52版本环境中，用户频繁遇到指标重复的告警问题，特别是kube_endpoint_address指标出现完全相同的时序数据被重复采集的情况。

问题现象

典型的问题表现包括：

Prometheus日志中出现"Error on ingesting samples with different value but same timestamp"警告
调试日志显示kube_endpoint_address指标的完全相同的标签组合被重复采集
问题端点通常具有多个端口配置，例如同时暴露9090和10901端口的Prometheus实例

根本原因分析

经过深入分析，发现问题的核心在于kube-state-metrics对Endpoint对象的处理逻辑存在缺陷：

Kubernetes的Endpoint对象允许同一个IP地址出现在不同子集(subset)中，每个子集可以定义不同的端口组合
当前kube_endpoint_address指标仅包含namespace、endpoint、ip和ready标签，没有考虑子集和端口的区分
当同一IP地址服务于多个端口时（如主服务端口和监控端口），就会生成完全相同的指标标签组合

技术影响

这种设计缺陷导致多个严重后果：

指标重复导致Prometheus存储膨胀
可能影响基于这些指标的告警规则准确性
资源使用量统计出现偏差
违反了Prometheus指标唯一性的基本原则

解决方案探讨

社区目前提出了几种改进方向：

增加子集索引标签：为kube_endpoint_address添加subset标签，标识地址所属的子集序号
合并指标设计：将kube_endpoint_address和kube_endpoint_ports合并为kube_endpoint_subsets统一指标
添加端口标签：在地址指标中增加port标签，同时标记原有端口指标为弃用

从Kubernetes的Endpoint验证逻辑来看，方案1和3更具可行性，因为Kubernetes本身允许不同子集中存在相同的IP/端口组合。