Grafana Kubernetes 仪表盘中的容器状态监控优化

2025-06-27 03:59:31作者：俞予舒Fleming

这是一个针对 Kubernetes 的现代 Grafana 仪表板集合，包含灵感来源于多个来源的专业设计。支持 kube-prometheus-stack，需要 kube-state-metrics 和 prometheus-node-exporter。特色包括对 Grafana 新特性的利用，如梯度模式、时间序列面板和自动化速率间隔。提供手动、通过 Grafana.com、ArgoCD、Helm 值或 ConfigMaps（可选 Terraform）等多种安装方式。包含多个监控不同层面（如全局、命名空间、节点、Pod）的仪表板，确保全面了解集群状态。

项目地址：https://gitcode.com/gh_mirrors/gr/grafana-dashboards-kubernetes

在Kubernetes集群运维过程中，监控容器状态是确保应用健康运行的关键环节。本文将介绍如何在Grafana Kubernetes仪表盘中优化容器状态监控视图，特别是针对非正常运行状态的容器。

容器状态监控的重要性

Kubernetes中的容器可能处于多种状态，包括但不限于：

Running（运行中）
Completed（已完成）
ErrImagePull（镜像拉取错误）
Pending（等待中）

其中，Running和Completed属于正常状态，而其他状态往往预示着潜在问题。及时发现这些异常状态对于运维团队至关重要。

传统监控方式的局限性

在标准的Gubernetes监控方案中，运维人员通常需要：

手动执行kubectl命令查询异常状态容器
依赖告警系统被动接收通知
在多个仪表盘间切换查看不同维度的状态信息

这种方式效率较低，且不利于快速定位问题。

Grafana仪表盘的优化方案

针对上述问题，可以在Gubernetes仪表盘中新增一个专门展示异常容器状态的监控面板。该面板应：

过滤显示所有非Running和Completed状态的容器
按命名空间分组展示
提供状态持续时间等关键指标
与告警系统形成互补，提供主动监控能力

实现技术要点

实现这一功能主要依赖Prometheus的kube_pod_container_status_waiting_reason和kube_pod_container_status_terminated_reason等指标。通过Grafana的查询语言，可以构建如下逻辑：

sum by (namespace, pod, container, reason) (
  kube_pod_container_status_waiting_reason{reason!=""}
  or
  kube_pod_container_status_terminated_reason{reason!="Completed"}
)

最佳实践建议

将异常状态面板放置在集群概览页面的显著位置
为不同异常状态设置不同的可视化颜色
添加持续时间阈值，突出显示长期异常
与日志系统集成，支持快速跳转排查

总结

通过在Grafana Kubernetes仪表盘中增加异常容器状态监控面板，运维团队可以获得更直观的问题视图，缩短故障发现和定位时间。这种主动监控方式与传统的告警系统形成互补，共同构建更完善的监控体系。

grafana-dashboards-kubernetes

项目地址：https://gitcode.com/gh_mirrors/gr/grafana-dashboards-kubernetes

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781