Grafana OnCall 核心功能揭秘:自动升级、排班轮换与多平台通知
Grafana OnCall 是 Grafana Labs 推出的一款开源事件响应与排班调度工具,专为 SRE 团队设计,能够帮助团队高效管理和跟踪故障处理情况,显著提升事件响应速度与团队协作效率。
一、全面的架构设计:事件响应的坚实基础 🛠️
Grafana OnCall 采用模块化架构设计,确保事件从检测到解决的全流程高效运转。其核心组件包括 Grafana 插件、后端引擎、数据库以及消息队列,形成一个完整的事件处理闭环。
从架构图中可以清晰看到,外部监控系统和 Grafana 告警信息通过统一接口流入 OnCall 后端引擎,经处理后由 Celery Worker 负责分发至 Slack、短信或电话等通知渠道。这种设计保证了事件响应的实时性和可靠性,相关实现可参考 engine/apps/alerts/ 目录下的源代码。
二、智能自动升级:确保关键事件不被遗漏 ⚡
自动升级是 Grafana OnCall 的核心功能之一,它能根据预设规则在不同级别间自动流转事件,确保问题得到及时处理。通过直观的界面,用户可以轻松配置升级链的每一个步骤。
在配置页面中,你可以设置多级升级策略:
- 初级响应:等待5分钟后通知一线工程师
- 次级响应:15分钟未响应则升级至团队负责人
- 紧急响应:30分钟未解决自动通知备用团队
这种阶梯式升级机制有效避免了关键告警被忽略的风险,相关配置存储在 engine/apps/alerts/models/ 目录下的模型文件中。
三、灵活排班轮换:实现公平高效的值班管理 📅
Grafana OnCall 提供了强大的排班功能,支持多种轮换模式,满足不同团队的工作需求。无论是固定班次、循环轮换还是按需调整,都能轻松配置。
排班系统核心特性:
- 支持日班、夜班、周末班等多种模式
- 一键生成月度/季度排班表
- 支持临时换班和假期替代
- 自动发送值班提醒通知
通过 engine/apps/schedules/ 模块,团队可以实现排班规则的自定义,确保值班安排公平合理,同时减少人工管理成本。
四、多平台通知:全方位触达响应人员 📱💻
为确保告警信息及时送达,Grafana OnCall 集成了多种通知渠道,实现多平台全覆盖。
主要通知方式包括:
- 即时通讯:Slack、Mattermost、Telegram
- 移动应用:专用移动客户端实时推送
- 电话/短信:Twilio、Exotel 语音通话与短信
- 电子邮件:详细告警信息与处理指南
移动应用让工程师随时随地接收和处理告警,即使不在电脑前也不会错过关键事件。同时,通过 grafana-plugin/src/assets/img/slack_instructions.png 所示的简单配置,即可快速完成 Slack 集成。
五、事件协作与记录:完善的故障处理闭环 🔄
Grafana OnCall 不仅关注事件的通知与升级,还提供了完善的事件协作功能。团队成员可以在平台上直接交流、记录处理过程,并添加解决方案笔记。
通过 Resolution Notes 功能,团队可以记录故障原因、解决方案和经验总结,形成知识库,为未来类似问题的处理提供参考。相关实现可查看 engine/apps/alerts/incident_log_builder/ 目录下的代码。
快速开始使用
要开始使用 Grafana OnCall,只需通过以下命令克隆仓库:
git clone https://gitcode.com/gh_mirrors/onc/oncall
然后参考官方文档 docs/ 中的部署指南,即可快速搭建属于你的事件响应系统。无论是小型团队还是大型企业,Grafana OnCall 都能提供灵活可扩展的事件响应解决方案,让你的 SRE 团队工作更高效、更从容。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00




