Grafana OnCall 核心功能揭秘：自动升级、排班轮换与多平台通知

2026-01-29 11:49:26作者：房伟宁

Grafana OnCall 是 Grafana Labs 推出的一款开源事件响应与排班调度工具，专为 SRE 团队设计，能够帮助团队高效管理和跟踪故障处理情况，显著提升事件响应速度与团队协作效率。

一、全面的架构设计：事件响应的坚实基础 🛠️

Grafana OnCall 采用模块化架构设计，确保事件从检测到解决的全流程高效运转。其核心组件包括 Grafana 插件、后端引擎、数据库以及消息队列，形成一个完整的事件处理闭环。

从架构图中可以清晰看到，外部监控系统和 Grafana 告警信息通过统一接口流入 OnCall 后端引擎，经处理后由 Celery Worker 负责分发至 Slack、短信或电话等通知渠道。这种设计保证了事件响应的实时性和可靠性，相关实现可参考 engine/apps/alerts/ 目录下的源代码。

二、智能自动升级：确保关键事件不被遗漏 ⚡

自动升级是 Grafana OnCall 的核心功能之一，它能根据预设规则在不同级别间自动流转事件，确保问题得到及时处理。通过直观的界面，用户可以轻松配置升级链的每一个步骤。

在配置页面中，你可以设置多级升级策略：

初级响应：等待5分钟后通知一线工程师
次级响应：15分钟未响应则升级至团队负责人
紧急响应：30分钟未解决自动通知备用团队

这种阶梯式升级机制有效避免了关键告警被忽略的风险，相关配置存储在 engine/apps/alerts/models/ 目录下的模型文件中。

三、灵活排班轮换：实现公平高效的值班管理 📅

Grafana OnCall 提供了强大的排班功能，支持多种轮换模式，满足不同团队的工作需求。无论是固定班次、循环轮换还是按需调整，都能轻松配置。

排班系统核心特性：

支持日班、夜班、周末班等多种模式
一键生成月度/季度排班表
支持临时换班和假期替代
自动发送值班提醒通知

通过 engine/apps/schedules/ 模块，团队可以实现排班规则的自定义，确保值班安排公平合理，同时减少人工管理成本。

四、多平台通知：全方位触达响应人员 📱💻

为确保告警信息及时送达，Grafana OnCall 集成了多种通知渠道，实现多平台全覆盖。

主要通知方式包括：

即时通讯：Slack、Mattermost、Telegram
移动应用：专用移动客户端实时推送
电话/短信：Twilio、Exotel 语音通话与短信
电子邮件：详细告警信息与处理指南

移动应用让工程师随时随地接收和处理告警，即使不在电脑前也不会错过关键事件。同时，通过 grafana-plugin/src/assets/img/slack_instructions.png 所示的简单配置，即可快速完成 Slack 集成。

五、事件协作与记录：完善的故障处理闭环 🔄

Grafana OnCall 不仅关注事件的通知与升级，还提供了完善的事件协作功能。团队成员可以在平台上直接交流、记录处理过程，并添加解决方案笔记。

通过 Resolution Notes 功能，团队可以记录故障原因、解决方案和经验总结，形成知识库，为未来类似问题的处理提供参考。相关实现可查看 engine/apps/alerts/incident_log_builder/ 目录下的代码。

快速开始使用

要开始使用 Grafana OnCall，只需通过以下命令克隆仓库：

git clone https://gitcode.com/gh_mirrors/onc/oncall

然后参考官方文档 docs/ 中的部署指南，即可快速搭建属于你的事件响应系统。无论是小型团队还是大型企业，Grafana OnCall 都能提供灵活可扩展的事件响应解决方案，让你的 SRE 团队工作更高效、更从容。

oncall

Developer-friendly incident response with brilliant Slack integration

项目地址：https://gitcode.com/gh_mirrors/onc/oncall

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987

Grafana OnCall 核心功能揭秘：自动升级、排班轮换与多平台通知

一、全面的架构设计：事件响应的坚实基础 🛠️

二、智能自动升级：确保关键事件不被遗漏 ⚡

三、灵活排班轮换：实现公平高效的值班管理 📅

排班系统核心特性：

四、多平台通知：全方位触达响应人员 📱💻

五、事件协作与记录：完善的故障处理闭环 🔄

快速开始使用

热门内容推荐

最新内容推荐

项目优选

Grafana OnCall 核心功能揭秘：自动升级、排班轮换与多平台通知

一、全面的架构设计：事件响应的坚实基础 🛠️

二、智能自动升级：确保关键事件不被遗漏 ⚡

三、灵活排班轮换：实现公平高效的值班管理 📅

排班系统核心特性：

四、多平台通知：全方位触达响应人员 📱💻

五、事件协作与记录：完善的故障处理闭环 🔄

快速开始使用

相关内容推荐

热门内容推荐

最新内容推荐

项目优选