Kubernetes资源监控优化：Grafana仪表盘精准过滤非运行态Pod指标

2025-06-27 09:50:43作者：史锋燃Gardner

在Kubernetes集群监控实践中，准确反映运行中Pod的资源使用情况是运维团队的核心需求。本文将深入分析如何优化Grafana仪表盘中的资源请求/限制指标计算逻辑，确保其仅统计处于运行状态的Pod。

问题背景

传统Kubernetes监控仪表盘在计算资源请求(request)和限制(limit)时，通常会直接聚合kube_pod_container_resource_requests和kube_pod_container_resource_limits指标。然而这种方式存在一个潜在问题：这些指标会包含所有状态的Pod（包括已终止、Pending或失败的Pod），导致资源使用量统计失真。

技术原理

Kubernetes的Pod生命周期包含多个阶段：

Pending：调度中
Running：正常运行
Succeeded：成功终止
Failed：异常终止
Unknown：状态未知

通过kube_pod_status_phase指标可以获取Pod的当前状态，其中phase="Running"标签专门标识运行中的Pod。将这一状态信息与资源指标关联，即可实现精准过滤。

解决方案

核心优化逻辑

原始查询语句：

sum(kube_pod_container_resource_requests{namespace=~"$namespace", resource="cpu", cluster="$cluster"})

优化后的查询通过向量匹配实现状态过滤：

sum(
  kube_pod_container_resource_requests{namespace=~"$namespace", resource="cpu"}
  * on(namespace, pod) group_left()
  (sum(kube_pod_status_phase{phase="Running", cluster="$cluster"}) by (pod, namespace) == 1)
)

该查询执行以下操作：

通过kube_pod_status_phase{phase="Running"}筛选运行中Pod
使用on(namespace, pod)指定匹配维度
group_left()保留左侧指标的所有标签
==1确保只匹配唯一运行状态

多维度适配

同样的优化原则适用于：

内存资源请求/限制
CPU资源请求/限制
临时存储等其它资源类型

示例内存限制查询：

sum(
  kube_pod_container_resource_limits{namespace=~"$namespace", resource="memory"}
  * on(namespace, pod) group_left()
  (sum(kube_pod_status_phase{phase="Running", cluster="$cluster"}) by (pod, namespace) == 1)
)