HertzBeat自定义监控历史图表卡顿问题分析与解决方案

2025-06-03 14:32:42作者：庞队千Virginia

问题现象

在HertzBeat监控系统中，用户使用docker-compose方式部署PG数据库和VictoriaMetrics存储后端时，发现自定义监控运行一段时间后会出现历史图表卡死现象。具体表现为浏览器界面无响应甚至崩溃，且系统未产生相关错误日志。该问题具有较高的复现率，多位用户均遇到相同情况。

问题根源分析

通过对用户反馈的深入分析，我们发现该问题主要与以下技术因素相关：

前端请求阻塞：浏览器开发者工具显示CPU监控接口请求长时间处于pending状态，表明前端与后端通信存在异常。
监控指标配置影响：当监控模板中包含topcpu和topmem等系统资源监控项时，问题出现概率显著增加。移除这些监控项后，大部分情况得到改善。
Shell脚本解析问题：
- 脚本中包含制表符(\t)会导致数据采集失败
- 复杂脚本可能引发解析异常，如日志中出现的"Error evaluating script"错误
资源消耗问题：长时间运行后可能出现内存泄漏或资源耗尽情况，特别是在监控项较多时更为明显。

解决方案

1. 监控模板优化建议

对于自定义监控模板，建议采取以下优化措施：

# 示例优化后的监控项配置
- name: optimized_monitor
  fields:
    - field: essential_metric
      type: 0  # 数值型指标
      unit: "unit"

避免在脚本中使用特殊字符如制表符
简化复杂脚本逻辑，分步骤执行
对非必要的高频监控项(如topcpu)适当降低采集频率

2. 系统配置调整

对于部署环境，建议检查：

后端服务资源限制(特别是内存分配)
数据库连接池配置
监控数据保留策略

3. 前端优化方案

对于界面卡顿问题：

减少单次请求的时间范围
实现数据分页加载机制
添加请求超时处理和重试机制

最佳实践建议

监控项设计原则：
- 按业务重要性分级配置
- 关键指标优先，非关键指标适当精简
- 避免单模板包含过多监控项
脚本编写规范：
- 使用简单明确的输出格式
- 避免多行复杂输出
- 添加必要的错误处理
系统运维建议：
- 定期检查服务日志
- 监控系统自身资源使用情况
- 保持版本更新

总结

HertzBeat作为开源监控系统，在自定义监控场景下可能遇到历史图表卡顿问题。通过优化监控模板设计、规范脚本编写以及合理配置系统资源，可以有效提升系统稳定性。建议用户在复杂监控场景下采用渐进式配置策略，逐步增加监控项并观察系统表现，以达到最佳监控效果与系统性能的平衡。

hertzbeat

An open source, real-time monitoring system with custom-monitoring, high performance cluster, prometheus-like and agentless.

项目地址：https://gitcode.com/gh_mirrors/he/hertzbeat

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统