Keep项目中VictoriaMetrics Provider的"none"级别告警处理问题分析

2025-05-23 16:56:46作者：滕妙奇

The open-source AIOps and alert management platform

项目地址：https://gitcode.com/GitHub_Trending/kee/keep

问题背景

在Keep项目集成VictoriaMetrics告警系统时，开发人员发现当告警级别为"none"时系统会抛出KeyError异常。这个问题导致VictoriaMetrics Provider无法正常获取告警信息，影响了整个告警处理流程。

问题现象

系统日志显示当VictoriaMetrics Provider尝试获取告警时，遇到了严重错误。核心错误信息表明在SEVERITIES_MAP映射表中找不到"none"这个键值，导致KeyError异常被抛出。错误堆栈显示问题发生在victoriametrics_provider.py文件的456行附近，当系统尝试将VictoriaMetrics的告警级别映射到Keep内部的告警严重程度时失败。

技术分析

深入分析这个问题，我们可以发现几个关键点：

严重级别映射机制：Keep系统内部维护了一个SEVERITIES_MAP字典，用于将不同告警系统的严重级别统一映射到Keep自身的告警级别体系。
VictoriaMetrics的特殊情况：VictoriaMetrics告警系统中可能存在"none"级别的告警，而当前的SEVERITIES_MAP实现没有包含对这种特殊级别的处理。
错误处理机制：虽然系统有异常捕获机制，但对于这种未预期的告警级别，目前的处理方式是直接抛出异常，导致整个告警获取流程中断。

解决方案

针对这个问题，技术团队提出了以下解决方案：

扩展映射表：在SEVERITIES_MAP字典中添加"none"级别的映射，建议将其映射为AlertSeverity.INFO级别，作为默认处理方式。
防御性编程：在获取告警级别时增加默认值处理逻辑，确保即使遇到未定义的告警级别，系统也能继续运行而不会中断。
版本更新：该修复将通过Keep 0.41.6版本发布，用户升级后即可解决此问题。

最佳实践建议

对于使用Keep集成VictoriaMetrics的用户，建议：

及时升级到包含此修复的版本
检查VictoriaMetrics中的告警规则，确认是否有必要使用"none"级别
监控系统日志，确保告警获取流程正常运行
考虑自定义SEVERITIES_MAP以满足特定业务场景的需求

总结

这个问题展示了在集成不同告警系统时可能遇到的兼容性挑战。通过扩展映射表和增强错误处理，Keep项目团队不仅解决了当前问题，也为未来集成更多告警系统提供了更健壮的基础架构。这种处理方式体现了良好的软件设计原则，特别是在处理外部系统集成时的防御性编程思想。

The open-source AIOps and alert management platform

项目地址：https://gitcode.com/GitHub_Trending/kee/keep

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库