HertzBeat中实时告警计算器的阈值规则过滤问题解析

2025-06-03 23:44:14作者：咎竹峻Karen

An open source, real-time monitoring system with custom-monitoring, high performance cluster, prometheus-like and agentless.

项目地址：https://gitcode.com/gh_mirrors/he/hertzbeat

问题背景

在开源监控系统HertzBeat中，实时告警计算模块(RealTimeAlertCalculator)负责处理监控指标并根据预设规则触发告警。近期发现该模块在处理阈值规则时存在一个关键的性能问题：当告警表达式仅关联特定监控实例时，系统未能正确过滤掉未关联的实例，导致不必要的计算开销。

问题现象

假设我们有以下场景：

系统监控着50个Redis实例
用户只为其中一个实例(如redis1)配置了告警规则
告警表达式形如：equals(__instance__, "982923424230")

按照预期，系统应该只处理redis1的数据。然而实际运行中，其他49个未关联的实例也会被送入JEXL表达式引擎进行计算，虽然最终不会产生误报，但造成了显著的计算资源浪费。

技术分析

根本原因

问题的根源在于前后端对告警表达式格式的处理不一致：

前端生成的表达式格式为：
```
equals(__instance__, "982923424230")
```
注意逗号后有一个空格
后端匹配使用的正则表达式为：
```
equals\\(__instance__,"(\\d+)"\\)
```
该正则没有考虑逗号后可能存在空格的情况

这种格式不匹配导致正则匹配失败，进而触发了容错逻辑，使得所有实例都被放行。

影响范围

虽然这个问题不会导致错误的告警结果（因为未关联实例最终会被表达式引擎正确过滤），但在大规模监控场景下会带来明显的性能问题：

增加了JEXL引擎的计算负担
消耗额外的CPU资源
在高频监控场景下可能影响系统整体吞吐量

解决方案

修复方案是调整正则表达式，使其能够兼容带空格和不带空格的表达式格式：

equals\\(__labels__,\\s*\"([^\"]+)\"\\)

关键改进点：

添加\\s*匹配零个或多个空白字符
使用更通用的[^\"]+匹配引号内的任意内容

最佳实践建议

表达式标准化：建议前后端统一表达式生成和解析的标准格式
性能监控：对于大规模部署，建议监控告警计算模块的CPU使用率
规则优化：对于大型监控环境，考虑按业务维度拆分告警规则集
测试覆盖：增加边界测试用例，特别是针对带特殊字符和空格的表达式

总结

这个案例展示了在分布式监控系统中，看似微小的格式差异可能导致显著性能问题的典型场景。通过精确匹配表达式格式，HertzBeat能够有效减少不必要的计算开销，提升系统整体效率。这也提醒我们在开发告警系统时，需要特别注意前后端数据格式的严格一致性。

An open source, real-time monitoring system with custom-monitoring, high performance cluster, prometheus-like and agentless.

项目地址：https://gitcode.com/gh_mirrors/he/hertzbeat

登录后查看全文

最新内容推荐

Windows版Redis 5.0.14下载资源：高效内存数据库的完美Windows解决方案 Python Django图书借阅管理系统：高效智能的图书馆管理解决方案 Python开发者的macOS终极指南：VSCode安装配置全攻略 Adobe Acrobat XI Pro PDF拼版插件：提升排版效率的专业利器 LabVIEW串口通信开发全攻略：从入门到精通的完整解决方案操作系统概念第六版PDF资源全面指南：适用场景与使用教程 STM32到GD32项目移植完全指南：从兼容性到实战技巧深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器 Windows Server 2016 .NET Framework 3.5 SXS文件下载与安装完整指南基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。