Apache Druid版本升级后查询性能下降问题分析与解决方案

2025-05-17 04:35:26作者：范靓好Udolf

Apache Druid: a high performance real-time analytics database.

项目地址：https://gitcode.com/gh_mirrors/druid7/druid

问题背景

在将Apache Druid集群从22版本升级到27版本后，用户遇到了一个显著的查询性能退化问题。原本在22版本中仅需5秒完成的查询，在27版本中执行时间延长至300秒以上。该查询针对一个包含超过20亿行数据的数据集，主要包含对ID字段的大规模IN条件筛选。

问题现象

查询SQL示例如下：

SELECT
id,
sum(val)/30 as l30d_ado
FROM mp
WHERE country = 'xx'
AND (is_cross_border = 1
    or id IN (570092232, 664177432, 881910562, ...)
)
AND __time >= timestamp '2025-03-08 17:00:00'
AND __time < timestamp '2025-04-07 17:00:00'
GROUP BY id
ORDER BY l30d_ado DESC

通过对比两个版本的执行计划发现：

22版本：将IN条件转换为高效的IN维度过滤器
27版本：将每个ID值转换为单独的Bound过滤器

根本原因分析

经过深入调查，发现该问题由多个因素共同导致：

数据类型不一致：
- 实时摄取任务将ID字段定义为LONG类型
- 批量摄取任务将同一字段定义为STRING类型
- 在27版本中，字段类型合并策略默认为"leastRestrictive"，导致最终类型被推断为STRING
查询计划生成差异：
- 22版本中，无论字段实际类型如何，都会尝试将多个等值条件合并为IN过滤器
- 27版本中，当字段类型为STRING时，会生成单独的Bound过滤器，导致查询效率大幅下降
版本行为变更：
- 27版本引入了更严格的类型检查机制
- 字段类型合并策略从"最新区间"变更为"最小限制"

解决方案

临时解决方案：在27版本中设置配置参数：
```
druid.sql.planner.metadataColumnTypeMergePolicy=latestInterval
```
这将恢复22版本的类型合并行为，使ID字段保持为LONG类型。
长期解决方案：
- 统一数据摄取规范，确保所有任务对同一字段使用一致的数据类型定义
- 考虑升级到32或更高版本，其中包含对数值类型IN过滤器的原生支持

技术深度解析

在27版本中，查询计划生成的关键差异点在于BoundFilter到SelectorDimFilter的转换过程。当以下条件不满足时，转换会失败：

bound.getOrdering().equals(comparator)

在STRING类型情况下，比较器类型不匹配（数值比较器vs字符串比较器），导致无法生成高效的IN过滤器。

最佳实践建议

版本升级前：
- 仔细阅读版本升级说明
- 测试关键查询在新版本中的执行计划
- 准备必要的配置调整
数据类型管理：
- 建立统一的字段类型规范
- 避免混合类型的数据摄取
- 定期检查数据源元数据一致性
查询优化：
- 对于包含大量IN条件的查询，考虑使用子查询或临时表
- 监控查询性能变化，及时调整

总结

这次性能问题揭示了Apache Druid在版本升级过程中可能遇到的行为变更风险，特别是涉及数据类型处理和查询优化的改进。通过理解底层机制，用户可以更好地规划升级路径，确保系统稳定性。未来版本中，随着数值类型IN过滤器的原生支持，这类问题将得到进一步改善。

对于正在考虑升级的用户，建议：

全面评估现有查询模式
在测试环境充分验证
准备好必要的配置调整
建立性能基准和监控机制

Apache Druid: a high performance real-time analytics database.

项目地址：https://gitcode.com/gh_mirrors/druid7/druid

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。