Apache RocketMQ新增Broker端Topic和订阅组创建时间监控指标

2025-05-10 21:57:07作者：卓艾滢Kingsley

背景与需求分析

在分布式消息系统中，Topic和订阅组的创建是基础且关键的操作。Apache RocketMQ作为一款高性能、高可靠的消息中间件，其管理控制台和运维体系需要全面监控这类核心操作的性能表现。然而，当前版本的RocketMQ在Broker端缺乏对Topic和订阅组创建时间的监控能力，这给系统性能分析和问题排查带来了不便。

技术方案设计

监控指标规划

新增两个直方图类型的监控指标，用于精确记录创建操作的耗时分布：

rocketmq_create_topic_time：记录Topic创建耗时
- 单位：毫秒
- 分桶策略：10ms、100ms、1s、3s、5s及溢出桶
- 标签维度：
  - 集群名称
  - 节点类型
  - 节点ID
  - 请求是否成功
  - 是否为系统Topic
rocketmq_create_subscription_time：记录订阅组创建耗时
- 单位：毫秒
- 分桶策略：同上
- 标签维度：
  - 集群名称
  - 节点类型
  - 节点ID
  - 请求是否成功

实现原理

直方图(Histogram)是一种特殊的监控指标类型，它通过采样统计的方式展示监控数据的分布情况。相比简单的平均值，直方图能够提供更丰富的性能分析维度：

可以观察到不同耗时区间的请求数量
能够识别长尾请求
便于计算百分位数（如P99、P95等）

技术实现细节

代码结构变更

BrokerMetricsManager类：
- 新增两个Histogram类型的成员变量：createTopicTime和createSubscriptionTime
- 在初始化方法中完成指标的注册和配置
BrokerMetricsConstant类：
- 新增常量定义，包括指标名称、标签名称等
- 特别添加LABEL_REQUEST_IS_SUCCESS标签，用于区分成功和失败的请求
AdminBrokerProcessor类：
- 在Topic创建和订阅组创建的处理逻辑中插入耗时统计代码
- 捕获操作开始和结束时间戳
- 根据操作结果设置相应的标签值

关键实现点

时间统计精度：
- 使用System.currentTimeMillis()或System.nanoTime()获取高精度时间戳
- 考虑网络传输时间与本地处理时间的区分
异常处理：
- 捕获创建过程中的各种异常情况
- 标记为失败请求的同时记录耗时
标签设计：
- 系统Topic标记有助于区分用户创建的Topic和内部系统Topic
- 请求成功/失败标签便于分析错误请求的耗时特征