首页
/ Prometheus Alertmanager v0.28.0 版本深度解析

Prometheus Alertmanager v0.28.0 版本深度解析

2025-06-09 08:09:28作者:裘晴惠Vivianne

Prometheus Alertmanager 作为 Prometheus 监控生态系统的关键组件,负责处理来自 Prometheus 的告警通知,进行去重、分组、抑制和路由,最终通过多种渠道将告警信息发送给相关人员。最新发布的 v0.28.0 版本带来了多项重要改进和新特性,本文将对这些变化进行详细解读。

核心功能增强

新增集成支持

本次更新引入了三个重要的新集成:

  1. Microsoft Teams 集成:基于 Flows 的全新实现,提供了更灵活的通知方式,能够更好地适应企业级告警需求。Teams 作为企业协作平台,这次集成使得告警信息可以直接推送到团队频道,便于快速响应。

  2. Rocket.Chat 集成:为使用 Rocket.Chat 作为内部通信工具的用户提供了原生支持,告警信息可以直接发送到指定的聊天室或用户。

  3. Jira 集成:这是一个重大改进,允许直接将告警转化为 Jira 工单,实现了告警到工单的自动化流程。特别值得注意的是,项目(project)和问题类型(issue_type)现在支持模板化,可以根据告警内容动态选择。

资源管理优化

v0.28.0 引入了两个重要的资源管理特性:

  1. GOMEMLIMIT 支持:通过启用 --enable-feature=auto-gomemlimit 标志,Alertmanager 可以自动设置 Go 运行时的内存限制,有助于防止内存泄漏导致的服务崩溃。

  2. GOMAXPROCS 支持:通过 --enable-feature=auto-gomaxprocs 标志,Alertmanager 可以自动设置使用的 CPU 核心数,优化多核环境下的性能表现。

这两个特性特别适合在容器化环境中运行 Alertmanager,能够更好地利用宿主机的资源。

告警处理改进

静默管理增强

新版本对静默(silence)功能进行了多项改进:

  1. 增加了静默数量的限制,可以通过 --silences.max-silences--silences.max-silence-size-bytes 参数控制,防止因过多静默导致性能下降。

  2. 优化了静默缓存机制,现在只有在创建新静默或替换现有静默时才会使缓存失效,显著提高了 GET api/v2/alertsPOST api/v2/alerts API 端点的响应速度。

  3. 修复了静默更新导致的内存泄漏问题,提升了长期运行的稳定性。

抑制规则改进

修复了 UTF-8 字符在抑制规则的 Equal 字段中不被允许的问题,使得非英文字符的标签值现在可以正常用于抑制规则。

通知渠道优化

模板功能增强

  1. 新增了 sincehumanizeDuration 函数,可以将时间格式化为更易读的形式,如"2小时前"。

  2. 增加了 datetz 函数,支持按照指定格式和时区显示时间,便于跨国团队协作。

  3. SNS 集成现在会正确返回模板错误,而不是静默失败,提高了问题排查效率。

特定渠道改进

  1. Discord:新增了对 contentusernameavatar_url 的支持,其中 contentusername 支持模板化,可以实现更个性化的通知。

  2. WebExroom_id 现在支持模板化,可以根据告警内容动态选择房间。

  3. 即时通讯工具:修复了 HTML 标签解析问题,并支持设置 message_thread_id,便于在群组中组织讨论。

  4. SMTP:修复了未正确关闭 SMTP 会话的问题,确保发送状态报告准确。

性能与稳定性

  1. 修复了多个竞态条件问题,包括告警接收管道和投递管道中的问题,提高了在高负载下的稳定性。

  2. 采用 log/slog 替代 go-kit/log,日志系统更加现代化和高效。

  3. 延迟指标现在支持原生直方图,便于更精确地监控性能。

  4. 构建系统升级到 Go 1.23,带来了语言层面的性能改进。

用户体验提升

  1. 被静默的告警现在会在 UI 和 /api/v2/alerts 端点中明确显示是被抑制还是被静默,便于区分不同状态。

  2. 修复了 amtool template render 命令在使用默认值时的崩溃问题。

  3. 改进了秘密值的显示策略,现在可以配置是否在配置转储时显示敏感信息。

总结

Prometheus Alertmanager v0.28.0 是一个功能丰富且稳定的版本,特别在企业级集成方面有显著增强。新增的 Jira、Microsoft Teams 和 Rocket.Chat 集成扩展了告警通知的渠道选择,而资源管理和静默功能的改进则提升了大规模部署下的可靠性和性能。模板功能的增强使得告警信息可以更加灵活和友好地呈现,有助于团队更快地理解和响应问题。对于正在使用或考虑使用 Prometheus 监控系统的团队,这个版本值得升级。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
152
1.97 K
kernelkernel
deepin linux kernel
C
22
6
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
486
37
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
315
10
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
191
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
991
395
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
193
276
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
937
554
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
75
69