Prometheus Operator中如何定制化KubePersistentVolumeFillingUp告警规则

2025-05-31 00:23:38作者：胡唯隽

prometheus-operator/kube-prometheus: kube-prometheus项目提供了在Kubernetes集群中部署Prometheus监控解决方案的一体化方法，包括Prometheus Server、Alertmanager、Grafana以及其他相关的监控组件，旨在简化在K8s环境下的监控配置与管理。

项目地址：https://gitcode.com/gh_mirrors/ku/kube-prometheus

背景介绍

在Kubernetes监控体系中，Prometheus Operator是一个广泛使用的工具，它简化了Prometheus及其相关组件的部署和管理。其中kube-prometheus子项目提供了一套预定义的监控规则和告警策略，KubePersistentVolumeFillingUp就是其中一个重要的持久卷容量告警规则。

问题分析

KubePersistentVolumeFillingUp告警默认会监控集群中所有命名空间的持久卷使用情况。但在实际生产环境中，运维团队可能只需要关注特定业务命名空间的存储容量，而非全部。全量监控会带来以下问题：

产生大量不必要的告警噪音
增加Prometheus的规则评估负载
可能包含不应监控的系统命名空间

解决方案

通过修改Prometheus Operator的Helm chart配置，可以灵活地禁用或修改这条告警规则。具体实现方式如下：

方法一：完全禁用告警

在values.yaml配置文件中，可以通过以下配置完全禁用该告警：

prometheus:
  rules:
    excluded:
      - KubePersistentVolumeFillingUp

方法二：定制化告警规则

如果需要更精细的控制，可以覆盖默认规则：

prometheus:
  additionalPrometheusRules:
    - name: custom-pv-rules
      rules:
      - alert: KubePersistentVolumeFillingUp
        expr: |
          kubelet_volume_stats_available_bytes{namespace=~"prod|staging"} / kubelet_volume_stats_capacity_bytes * 100 < 10
        for: 1h
        labels:
          severity: warning
        annotations:
          summary: Persistent volume is filling up ({{ $labels.namespace }}/{{ $labels.persistentvolumeclaim }})
          description: The persistent volume claimed by {{ $labels.namespace }}/{{ $labels.persistentvolumeclaim }} is only {{ $value }}% free.