Apache Doris EXPLAIN 语句深度解析与执行计划优化指南

2025-06-27 11:34:58作者：鲍丁臣Ursa

概述

在 Apache Doris 中，EXPLAIN 语句是性能调优的重要工具，它能够展示查询的执行计划。理解执行计划对于优化查询性能至关重要，本文将全面解析 EXPLAIN 的输出内容，帮助开发者掌握执行计划分析的技巧。

EXPLAIN 语法基础

EXPLAIN 语句的基本语法非常简单：

{EXPLAIN | DESC} [VERBOSE] <query_block>

<query_block>：要分析的查询语句
[VERBOSE]：可选参数，显示更详细的执行计划信息

执行计划核心概念

执行计划层级结构

Apache Doris 的执行计划采用三层结构：

PLAN：完整的执行计划
FRAGMENT：执行片段，分布式执行的基本单元
PLAN NODE：执行算子，最小的执行单元

执行顺序特点

在 EXPLAIN 输出中，执行计划的展示顺序与实际执行顺序相反：

FRAGMENT 按照从后往前的顺序展示
每个 FRAGMENT 内的算子也是从后往前展示
多子节点的算子采用垂直排列，右子节点在上，左子节点在下

执行计划详解

FRAGMENT 关键字段

字段名	说明
PARTITION	当前片段的数据分布方式
HAS_COLO_PLAN_NODE	是否包含 Colocate 算子
Sink	片段数据输出方式（详见下文）

数据输出方式(Sink)

输出类型	说明
STREAM DATA SINK	输出到下一个片段，包含分发方式(UNPARTITIONED/RANDOM/HASH_PARTITIONED)
RESULT SINK	结果返回给前端(FE)，支持MySQL和arrow协议
OLAP TABLE SINK	写入OLAP表
MultiCastDataSinks	多播输出，包含多个STREAM DATA SINK

算子类型大全

Apache Doris 支持丰富的执行算子，主要包括：

扫描类：OlapScanNode、EsScanNode、HiveScanNode等
连接类：HASH JOIN、NESTED LOOP JOIN
聚合类：AGGREGATE
排序类：SORT、TOP-N
集合操作：UNION、EXCEPT、INTERSECT
特殊功能：ANALYTIC(窗口函数)、PartitionTopN(分区TopN)等

高级分析技巧

使用 VERBOSE 模式

添加 VERBOSE 参数可以获取更详细的执行计划信息，特别是 Tuple 和 Slot 的详细信息：

EXPLAIN VERBOSE SELECT * FROM table;

输出包含 TupleDescriptor 和 SlotDescriptor，展示数据行的详细结构信息。

关键性能指标解读

cardinality：优化器估算的行数，与实际差异可能影响性能
runtime filters：运行时过滤条件，能显著提升Join性能
distribute expr lists：数据分发表达式，影响数据倾斜

常见性能问题识别

数据倾斜：检查HASH_PARTITIONED的分发键是否合理
估算偏差：比较cardinality估算值与实际值的差异
非最优Join：识别非预期的BROADCAST或非Colocate Join
全表扫描：注意缺少分区剪枝或分桶剪枝的情况

实战案例分析

案例1：Join优化

EXPLAIN SELECT * FROM A JOIN B ON A.id = B.id;

重点关注：

join op类型(INNER/OUTER等)
equal join conjunct条件
是否是BROADCAST Join
runtime filters生成情况

案例2：聚合查询

EXPLAIN SELECT department, COUNT(*) FROM employees GROUP BY department;

关注点：

聚合阶段(update/merge)
STREAMING标志
group by键
输出表达式

最佳实践建议

定期使用EXPLAIN分析关键查询
结合PROFILE命令获取实际执行统计信息
关注数据分布和分区策略对执行计划的影响
对复杂查询进行分步EXPLAIN分析
建立执行计划分析的知识库，记录典型模式

通过深入理解EXPLAIN输出，开发者可以精准定位查询性能瓶颈，制定有效的优化策略，充分发挥Apache Doris的高性能查询能力。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

453

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。