Apache RocketMQ新增Broker端Topic与订阅组数量监控指标

2025-05-10 16:50:39作者：胡唯隽

背景与需求分析

Apache RocketMQ作为一款高性能、高可靠的分布式消息中间件，其Broker节点的稳定运行对整个消息系统的健康状态至关重要。在实际生产环境中，运维人员需要实时掌握Broker节点上活跃Topic和订阅组的数量变化情况，以便：

评估系统当前负载情况
及时发现异常增长或减少的Topic/订阅组
为容量规划和资源分配提供数据支持
监控系统整体运行状态

然而，在现有版本中，RocketMQ的监控体系缺乏对Broker端Topic和订阅组数量的直接监控指标，这给运维工作带来了一定不便。

技术方案设计

指标定义

新增两个Gauge类型的监控指标：

rocketmq_total_topic_number
- 类型：Gauge
- 单位：count
- 描述：Broker节点当前管理的Topic总数
- 标签：cluster(集群名称)、node_type(节点类型)、node_id(节点ID)
rocketmq_total_subscription_number
- 类型：Gauge
- 描述：Broker节点当前管理的订阅组总数
- 其他属性与Topic指标相同

注：经过讨论，指标名称从最初的"active"调整为"total"，因为获取的是配置表中的总量而非活跃状态的数量。

实现原理

在BrokerMetricsManager类中新增两个成员变量：

private final LongAdder activeTopicNum = new LongAdder();
private final LongAdder activeSubGroupNum = new LongAdder();

在BrokerMetricsConstant类中添加对应的常量定义，用于指标命名和描述。

在initStatsMetrics方法中构建这两个指标，并注册到指标系统中。

数据采集机制

通过定时回调函数定期更新指标值：

对于Topic数量：

this.brokerController.topicConfigManager.getTopicConfigTable().size()

对于订阅组数量：

brokerController.getSubscriptionGroupManager().getSubscriptionGroupTable().size()

这种实现方式具有以下特点：

低开销：直接从内存中的配置表获取数量，不涉及磁盘IO
实时性：通过定时刷新机制保证数据的及时性
准确性：反映Broker节点实际管理的配置数量

技术价值

完善监控体系：填补了Broker节点在Topic和订阅组数量监控方面的空白
运维友好：为日常运维提供了直观的数据指标
性能无损：实现方式对系统性能影响极小
扩展性强：为后续可能的细粒度监控（如按命名空间统计）奠定了基础

应用场景示例

容量预警：当Topic数量突然激增时，可以及时发出预警
异常检测：订阅组数量异常减少可能意味着消费者出现问题
资源调配：根据Topic数量变化动态调整Broker资源
系统健康度评估：结合其他指标全面评估Broker状态

总结

通过在Apache RocketMQ Broker端新增Topic和订阅组数量的监控指标，显著增强了系统的可观测性。这一改进虽然代码实现简洁，但对提升运维效率和系统可靠性具有重要意义。未来还可以考虑在此基础上增加更细粒度的监控维度，如按业务线或命名空间划分的统计指标，以满足更复杂的监控需求。

rocketmq

Apache RocketMQ is a cloud native messaging and streaming platform, making it simple to build event-driven applications.

项目地址：https://gitcode.com/gh_mirrors/rocketmq3/rocketmq

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。