首页
/ Grafana OnCall 核心功能揭秘:自动升级、排班轮换与多平台通知

Grafana OnCall 核心功能揭秘:自动升级、排班轮换与多平台通知

2026-01-29 11:49:26作者:房伟宁

Grafana OnCall 是 Grafana Labs 推出的一款开源事件响应与排班调度工具,专为 SRE 团队设计,能够帮助团队高效管理和跟踪故障处理情况,显著提升事件响应速度与团队协作效率。

一、全面的架构设计:事件响应的坚实基础 🛠️

Grafana OnCall 采用模块化架构设计,确保事件从检测到解决的全流程高效运转。其核心组件包括 Grafana 插件、后端引擎、数据库以及消息队列,形成一个完整的事件处理闭环。

Grafana OnCall 架构图

从架构图中可以清晰看到,外部监控系统和 Grafana 告警信息通过统一接口流入 OnCall 后端引擎,经处理后由 Celery Worker 负责分发至 Slack、短信或电话等通知渠道。这种设计保证了事件响应的实时性和可靠性,相关实现可参考 engine/apps/alerts/ 目录下的源代码。

二、智能自动升级:确保关键事件不被遗漏 ⚡

自动升级是 Grafana OnCall 的核心功能之一,它能根据预设规则在不同级别间自动流转事件,确保问题得到及时处理。通过直观的界面,用户可以轻松配置升级链的每一个步骤。

自动升级配置界面

在配置页面中,你可以设置多级升级策略:

  • 初级响应:等待5分钟后通知一线工程师
  • 次级响应:15分钟未响应则升级至团队负责人
  • 紧急响应:30分钟未解决自动通知备用团队

这种阶梯式升级机制有效避免了关键告警被忽略的风险,相关配置存储在 engine/apps/alerts/models/ 目录下的模型文件中。

三、灵活排班轮换:实现公平高效的值班管理 📅

Grafana OnCall 提供了强大的排班功能,支持多种轮换模式,满足不同团队的工作需求。无论是固定班次、循环轮换还是按需调整,都能轻松配置。

排班系统核心特性:

  • 支持日班、夜班、周末班等多种模式
  • 一键生成月度/季度排班表
  • 支持临时换班和假期替代
  • 自动发送值班提醒通知

通过 engine/apps/schedules/ 模块,团队可以实现排班规则的自定义,确保值班安排公平合理,同时减少人工管理成本。

四、多平台通知:全方位触达响应人员 📱💻

为确保告警信息及时送达,Grafana OnCall 集成了多种通知渠道,实现多平台全覆盖。

多平台集成标志

主要通知方式包括:

  • 即时通讯:Slack、Mattermost、Telegram
  • 移动应用:专用移动客户端实时推送
  • 电话/短信:Twilio、Exotel 语音通话与短信
  • 电子邮件:详细告警信息与处理指南

移动应用告警界面

移动应用让工程师随时随地接收和处理告警,即使不在电脑前也不会错过关键事件。同时,通过 grafana-plugin/src/assets/img/slack_instructions.png 所示的简单配置,即可快速完成 Slack 集成。

五、事件协作与记录:完善的故障处理闭环 🔄

Grafana OnCall 不仅关注事件的通知与升级,还提供了完善的事件协作功能。团队成员可以在平台上直接交流、记录处理过程,并添加解决方案笔记。

事件解决笔记功能

通过 Resolution Notes 功能,团队可以记录故障原因、解决方案和经验总结,形成知识库,为未来类似问题的处理提供参考。相关实现可查看 engine/apps/alerts/incident_log_builder/ 目录下的代码。

快速开始使用

要开始使用 Grafana OnCall,只需通过以下命令克隆仓库:

git clone https://gitcode.com/gh_mirrors/onc/oncall

然后参考官方文档 docs/ 中的部署指南,即可快速搭建属于你的事件响应系统。无论是小型团队还是大型企业,Grafana OnCall 都能提供灵活可扩展的事件响应解决方案,让你的 SRE 团队工作更高效、更从容。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
466
kernelkernel
deepin linux kernel
C
32
16
atomcodeatomcode
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started
Rust
2.09 K
218
ops-nnops-nn
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
700
1.4 K
docsdocs
暂无描述
Dockerfile
780
5.08 K
pytorchpytorch
Ascend Extension for PyTorch
Python
758
968
flutter_flutterflutter_flutter
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
ops-transformerops-transformer
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
880
2.03 K
mindquantummindquantum
MindQuantum is a general software library supporting the development of applications for quantum computation.
Python
183
112
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.11 K
682