Nightingale告警恢复场景下的自愈机制优化实践

2025-05-21 17:46:33作者：尤峻淳Whitney

An all-in-one observability solution which aims to combine the advantages of Prometheus and Grafana. It manages alert rules and visualizes metrics, logs, traces in a beautiful web UI.

项目地址：https://gitcode.com/gh_mirrors/nightingale/nightingale

背景

在分布式监控系统Nightingale的实际使用中，告警自愈功能是运维自动化的关键组成部分。当监控指标触发告警阈值时，系统能够自动执行预设的恢复脚本，快速修复问题。然而在实际生产环境中，我们发现当告警自动恢复时（如指标自然回落至正常范围），系统仍会触发自愈脚本的执行，这不仅可能造成资源浪费，在某些场景下甚至可能导致服务状态的二次扰动。

技术痛点分析

传统告警自愈机制通常设计为简单的事件触发模式，即：

告警触发 → 执行自愈脚本
告警恢复 → 再次执行自愈脚本

这种设计存在两个主要问题：

冗余执行：当服务已自动恢复时，重复执行修复脚本毫无意义
潜在风险：某些修复脚本可能包含服务重启等操作，在正常状态下执行反而会影响服务稳定性

Nightingale的解决方案演进

初期方案（v7.4.1及之前版本）

早期版本中，系统未提供内置的恢复事件判断机制，用户需要通过以下方式规避：

完全关闭告警恢复通知
在自愈脚本中手动添加服务状态检查逻辑

这种方案存在明显缺陷：

关闭恢复通知会导致运维人员失去状态感知
手动检查逻辑增加了脚本复杂度且不可靠

改进方案（v7.7.1版本）

新版本中引入了关键改进：

事件元数据增强：在传递给自愈脚本的输入参数中加入了is_recovered标志位
脚本逻辑优化：用户可以在脚本中通过判断该标志位实现智能执行

典型实现示例：

#!/bin/bash
# 解析输入参数
event_data=$(cat /dev/stdin)
is_recovered=$(echo $event_data | jq '.is_recovered')

if [ "$is_recovered" = "true" ]; then
    echo "告警已自动恢复，跳过自愈执行"
    exit 0
fi

# 正常自愈逻辑
...