Apache Doris 工作负载分析与诊断实战指南

2025-06-27 16:51:23作者：平淮齐Percy

概述

Apache Doris 作为一款高性能的MPP分析型数据库，在实际生产环境中可能会面临各种工作负载问题。本文将深入讲解如何对Doris集群进行工作负载分析与诊断，帮助DBA和运维人员快速定位和解决性能问题。

工作负载分析的两个阶段

1. 运行时工作负载分析

当集群可用性下降时，可以通过以下步骤进行实时诊断：

1.1 确定集群瓶颈

通过监控指标初步判断当前集群瓶颈：内存、CPU还是IO
如果多项指标都高，建议优先处理内存问题

1.2 定位高负载工作组

查询workload_group_resource_usage表
根据瓶颈类型找出资源消耗最高的N个工作组

1.3 实施应急措施

降低高负载工作组的查询并发度
根据瓶颈类型采取不同降级策略：
- CPU瓶颈：设置cpu_hard_limit硬限制并降低其值
- IO瓶颈：通过read_bytes_per_second限制最大IO
- 内存瓶颈：设置memory_limit硬限制并降低其值（可能导致查询失败）

1.4 深入分析原因

判断是工作组整体查询并发增加还是特定大查询导致
使用backend_active_tasks和active_queries表定位异常SQL
通过kill语句终止问题查询释放资源

2. 历史数据分析

通过审计日志分析历史工作负载模式：

2.1 确认历史瓶颈

分析监控历史数据确定集群瓶颈类型

2.2 识别异常SQL

有明确预期：根据业务特点定义异常SQL标准
无明确预期：使用百分位函数计算历史基准值
- 计算历史tp50/tp75/tp99/tp999等指标
- 对比当前值与历史基准的偏差

2.3 优化异常查询

SQL重写
表结构优化
并行度调整

2.4 流量分析

检查SQL执行量是否异常增长
确认上游业务变化情况
考虑集群扩容或实施限流

实用SQL查询示例

1. 工作组资源使用排名

select be_id,workload_group_id,memory_usage_bytes,cpu_usage_percent,local_scan_bytes_per_second 
from workload_group_resource_usage
order by memory_usage_bytes,cpu_usage_percent,local_scan_bytes_per_second desc

2. CPU消耗TopN查询

select 
    t1.query_id as be_query_id,
    t1.query_type,
    t2.query_id,
    t2.workload_group_id,
    t2.`database`,
    t1.cpu_time,
    t2.`sql`
from
    (select query_id, query_type,sum(task_cpu_time_ms) as cpu_time 
     from backend_active_tasks group by query_id, query_type) t1 
    left join active_queries t2
    on t1.query_id = t2.query_id
order by cpu_time desc limit 10;

3. 内存消耗TopN查询

select 
    t1.query_id as be_query_id,
    t1.query_type,
    t2.query_id,
    t2.workload_group_id,
    t1.mem_used
from
    (select query_id, query_type, sum(current_used_memory_bytes) as mem_used 
     from backend_active_tasks group by query_id, query_type) t1 
    left join active_queries t2
    on t1.query_id = t2.query_id 
order by mem_used desc limit 10;

4. 扫描数据量TopN查询

select 
    t1.query_id as be_query_id,
    t1.query_type,
    t2.query_id,
    t2.workload_group_id,
    t1.scan_rows,
    t1.scan_bytes
from
    (select query_id, query_type, sum(scan_rows) as scan_rows,sum(scan_bytes) as scan_bytes 
     from backend_active_tasks group by query_id,query_type) t1 
    left join active_queries t2
    on t1.query_id = t2.query_id 
order by scan_rows desc,scan_bytes desc limit 10;