Apache Druid 使用 AWS S3 作为深度存储时的性能优化实践

2025-05-17 22:47:22作者：滑思眉Philip

Apache Druid 是一个高性能的实时分析数据库，在数据摄入和查询过程中经常使用云存储服务如 AWS S3 作为深度存储。但在实际部署中，用户可能会遇到从 S3 加载数据到 Historical 节点时下载速度不理想的情况。

问题现象

当 Historical 节点首次启动或数据完全不在本地时，从 S3 深度存储加载数据的速度明显低于预期。测试表明：

通过 Druid 直接加载速度约为 50MB/s
使用 AWS CLI 工具在相同环境下载相同数据可达 400-500MB/s

性能瓶颈分析

这种性能差异主要源于以下几个方面：

并发控制机制不同：AWS CLI 使用了更激进的并发策略
HTTP 连接管理：Druid 默认配置可能限制了并发连接数
线程池配置：Historical 节点的数据加载线程数可能不足
协调节点调度：Coordinator 分配任务的批处理大小影响并行度

优化解决方案

经过实践验证，以下配置调整可显著提升 S3 数据加载性能：

Coordinator 节点关键配置

druid.coordinator.loadqueuepeon.http.batchSize=10

此参数控制 Coordinator 批量分配给 Historical 节点的任务数量，增大此值可提高并行度。

Historical 节点关键配置

druid.segmentCache.numLoadingThreads=10
druid.server.http.numThreads=25

numLoadingThreads 增加数据加载线程池大小
http.numThreads 提升 HTTP 服务处理能力

底层原理

这些优化之所以有效，是因为：

批量任务分配：增大 batchSize 使得 Historical 节点可以同时处理更多段加载请求
并行下载能力：更多加载线程可以充分利用网络带宽
资源平衡：适当增加 HTTP 线程数避免成为瓶颈，同时不消耗过多系统资源

最佳实践建议

对于大规模部署，建议：

根据 Historical 节点数量和网络带宽调整 batchSize
监控系统资源使用情况动态调整线程池大小
考虑 Historical 节点的 CPU 和内存资源与网络带宽的配比
在测试环境进行基准测试找到最优配置

通过这些优化，用户可以将 S3 数据加载性能提升数倍，显著缩短 Historical 节点冷启动时间，提高集群整体可用性。

druid

Apache Druid: a high performance real-time analytics database.

项目地址：https://gitcode.com/gh_mirrors/druid7/druid

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

134

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

555

110