Grafana OnCall 核心功能揭秘:自动升级、排班轮换与多平台通知
Grafana OnCall 是 Grafana Labs 推出的一款开源事件响应与排班调度工具,专为 SRE 团队设计,能够帮助团队高效管理和跟踪故障处理情况,显著提升事件响应速度与团队协作效率。
一、全面的架构设计:事件响应的坚实基础 🛠️
Grafana OnCall 采用模块化架构设计,确保事件从检测到解决的全流程高效运转。其核心组件包括 Grafana 插件、后端引擎、数据库以及消息队列,形成一个完整的事件处理闭环。
从架构图中可以清晰看到,外部监控系统和 Grafana 告警信息通过统一接口流入 OnCall 后端引擎,经处理后由 Celery Worker 负责分发至 Slack、短信或电话等通知渠道。这种设计保证了事件响应的实时性和可靠性,相关实现可参考 engine/apps/alerts/ 目录下的源代码。
二、智能自动升级:确保关键事件不被遗漏 ⚡
自动升级是 Grafana OnCall 的核心功能之一,它能根据预设规则在不同级别间自动流转事件,确保问题得到及时处理。通过直观的界面,用户可以轻松配置升级链的每一个步骤。
在配置页面中,你可以设置多级升级策略:
- 初级响应:等待5分钟后通知一线工程师
- 次级响应:15分钟未响应则升级至团队负责人
- 紧急响应:30分钟未解决自动通知备用团队
这种阶梯式升级机制有效避免了关键告警被忽略的风险,相关配置存储在 engine/apps/alerts/models/ 目录下的模型文件中。
三、灵活排班轮换:实现公平高效的值班管理 📅
Grafana OnCall 提供了强大的排班功能,支持多种轮换模式,满足不同团队的工作需求。无论是固定班次、循环轮换还是按需调整,都能轻松配置。
排班系统核心特性:
- 支持日班、夜班、周末班等多种模式
- 一键生成月度/季度排班表
- 支持临时换班和假期替代
- 自动发送值班提醒通知
通过 engine/apps/schedules/ 模块,团队可以实现排班规则的自定义,确保值班安排公平合理,同时减少人工管理成本。
四、多平台通知:全方位触达响应人员 📱💻
为确保告警信息及时送达,Grafana OnCall 集成了多种通知渠道,实现多平台全覆盖。
主要通知方式包括:
- 即时通讯:Slack、Mattermost、Telegram
- 移动应用:专用移动客户端实时推送
- 电话/短信:Twilio、Exotel 语音通话与短信
- 电子邮件:详细告警信息与处理指南
移动应用让工程师随时随地接收和处理告警,即使不在电脑前也不会错过关键事件。同时,通过 grafana-plugin/src/assets/img/slack_instructions.png 所示的简单配置,即可快速完成 Slack 集成。
五、事件协作与记录:完善的故障处理闭环 🔄
Grafana OnCall 不仅关注事件的通知与升级,还提供了完善的事件协作功能。团队成员可以在平台上直接交流、记录处理过程,并添加解决方案笔记。
通过 Resolution Notes 功能,团队可以记录故障原因、解决方案和经验总结,形成知识库,为未来类似问题的处理提供参考。相关实现可查看 engine/apps/alerts/incident_log_builder/ 目录下的代码。
快速开始使用
要开始使用 Grafana OnCall,只需通过以下命令克隆仓库:
git clone https://gitcode.com/gh_mirrors/onc/oncall
然后参考官方文档 docs/ 中的部署指南,即可快速搭建属于你的事件响应系统。无论是小型团队还是大型企业,Grafana OnCall 都能提供灵活可扩展的事件响应解决方案,让你的 SRE 团队工作更高效、更从容。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
new-apiAI模型聚合管理中转分发系统,一个应用管理您的所有AI模型,支持将多种大模型转为统一格式调用,支持OpenAI、Claude、Gemini等格式,可供个人或者企业内部管理与分发渠道使用。🍥 A Unified AI Model Management & Distribution System. Aggregate all your LLMs into one app and access them via an OpenAI-compatible API, with native support for Claude (Messages) and Gemini formats.JavaScript01
idea-claude-code-gui一个功能强大的 IntelliJ IDEA 插件,为开发者提供 Claude Code 和 OpenAI Codex 双 AI 工具的可视化操作界面,让 AI 辅助编程变得更加高效和直观。Java01
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility.Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00




