Prometheus中alert_relabel_config导致告警误统计问题分析

2025-04-30 19:19:35作者：裘旻烁

The Prometheus monitoring system and time series database.

项目地址：https://gitcode.com/GitHub_Trending/pr/prometheus

问题背景

在Prometheus监控系统中，用户配置了alert_relabel_configs规则来过滤特定告警时，发现prometheus_notifications_dropped_total指标异常增长。这个指标原本用于统计未能成功发送到Alertmanager的告警数量，但在有意识地通过relabel规则丢弃告警时，该指标也会被错误地计数。

技术原理分析

Prometheus的告警处理流程中，alert_relabel_configs配置允许用户在告警发送到Alertmanager之前对告警进行重新标记或过滤。当配置了action: drop规则时，符合特定条件的告警会被系统主动丢弃。

问题的核心在于notifier.sendAll()方法的实现逻辑。该方法在处理告警时：

首先对每个Alertmanager应用relabel规则
如果relabel后告警列表为空，则跳过该Alertmanager
最终统计成功发送的Alertmanager数量

当所有Alertmanager都因为relabel规则而跳过时，系统错误地将这种情况视为"发送失败"，导致prometheus_notifications_dropped_total指标增加。

影响范围

这一行为会导致以下问题：

监控指标失真：主动丢弃的告警被误统计为发送失败
告警质量下降：无法区分真正的发送失败和有意过滤的告警
运维复杂度增加：难以通过指标判断Alertmanager的实际健康状况

解决方案

该问题已在Prometheus的代码修复中通过以下方式解决：

修改指标统计逻辑，区分主动丢弃和发送失败
确保prometheus_notifications_dropped_total仅统计非预期的发送失败
为主动丢弃的告警添加专门的统计指标

最佳实践建议

对于需要在Prometheus中过滤告警的用户，建议：

明确区分业务过滤和系统故障：为不同的过滤目的使用不同的标签
监控告警流程：同时关注发送成功和主动过滤的指标
合理配置relabel规则：避免过度使用全局drop规则
升级到修复版本：确保使用包含此修复的Prometheus版本

总结

Prometheus的这一行为修正体现了监控系统设计中的一个重要原则：系统指标应该准确反映系统状态，而不应包含用户预期的行为。通过这次修复，用户可以更准确地监控告警发送流程，及时发现真正的系统问题，而不被预期的过滤行为所干扰。

The Prometheus monitoring system and time series database.

项目地址：https://gitcode.com/GitHub_Trending/pr/prometheus

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。