Apache Doris监控指标全面解析：从基础到实践

2025-06-27 19:42:56作者：胡易黎Nicole

一、Doris监控体系概述

Apache Doris作为一款高性能的MPP分析型数据库，提供了完善的监控指标体系，帮助管理员全面掌握集群运行状态。监控指标主要分为两大类：

进程监控：反映Doris进程本身的运行状态
节点监控：反映Doris进程所在节点的机器资源使用情况

二、监控数据获取方式

2.1 基础获取方式

通过HTTP接口获取监控数据，支持两种格式：

# 获取Prometheus格式的监控数据
curl http://fe_host:http_port/metrics
curl http://be_host:webserver_port/metrics

# 获取JSON格式的监控数据
curl http://fe_host:http_port/metrics?type=json
curl http://be_host:webserver_port/metrics?type=json

2.2 监控数据类型说明

大多数监控指标类型为Counter（计数器），即累积值。有效使用方式是定期采集（如每15秒）并计算单位时间内的变化率（斜率），例如：

查询错误率 = doris_fe_query_err的斜率变化（每秒错误数）
元数据写入速率 = doris_fe_edit_log中写入量的斜率变化

三、FE核心监控指标详解

3.1 关键进程指标（P0级）

指标名称	单位	说明	异常处理建议
doris_fe_connection_total	个	FE MySQL端口当前连接数	超过限制会导致新连接无法建立
doris_fe_edit_log_write	次	元数据日志写入次数	斜率异常可能反映元数据写入问题
doris_fe_max_journal_id	-	当前FE节点的最大元数据日志ID	主从FE间ID差距过大表明同步问题
doris_fe_qps	次/秒	查询请求QPS	反映集群查询负载
doris_fe_query_latency_ms	毫秒	查询延迟百分位统计	高延迟需优化查询或扩容

3.2 元数据相关指标

doris_fe_edit_log系列：监控元数据日志的健康状态
- current_bytes：当前元数据日志大小，超过阈值需人工干预
- read/write：监控元数据读写频率
doris_fe_image_write：元数据镜像生成状态，失败需立即处理

3.3 任务调度指标

doris_fe_scheduled_tablet_num：正在调度的tablet数量
- 长期有值表明集群不稳定
doris_fe_tablet_status_count：tablet调度状态统计
- in_sched快速增加：tablet长期处于不健康状态
- not_ready快速增加：大量tablet无法满足调度条件

3.4 线程池监控

通过doris_fe_thread_pool监控各线程池状态：

active_thread_num：正在执行的任务数
pool_size：线程池总线程数
task_in_queue：排队任务数

重点关注：

agent-task-pool：Master FE下发Agent Task的线程池
mysql-nio-pool：MySQL Server的NIO线程池

四、BE核心监控指标

4.1 存储引擎关键指标

指标名称	单位	说明	重要性
doris_be_base_compaction_num	个	基线压缩任务数	P0
doris_be_cumulative_compaction_num	个	增量压缩任务数	P0
doris_be_tablet_compaction_failed	次	压缩失败次数	P1

4.2 查询执行指标

doris_be_query_scan_bytes：查询扫描数据量
doris_be_query_scan_rows：查询扫描行数
doris_be_query_latency_ms：查询延迟百分位

五、监控最佳实践

告警策略建议：
- P0级指标设置实时告警
- 元数据相关失败指标设置立即告警
- QPS/延迟设置动态基线告警
容量规划参考：
- 长期观察doris_fe_tablet_num的分布均衡性
- 监控doris_fe_max_tablet_compaction_score预测性能瓶颈
故障排查路径：
- 查询变慢：检查查询延迟+压缩分数+线程池队列
- 写入失败：检查元数据日志+editlog队列