Apache Druid深度存储查询优化：实现S3单文件CSV输出

2025-05-16 15:11:07作者：谭伦延

在Apache Druid的大数据分析实践中，深度存储(deep-storage)查询是一个重要功能，它允许用户对冷数据或备份数据进行非实时分析。然而，当前版本中存在一个影响用户体验的技术痛点：当使用MSQ引擎执行"INSERT INTO EXTERN(s3()) AS CSV"查询时，输出结果会被分散存储在S3的多个分区文件中，这给后续的数据处理带来了不便。

技术背景分析

Druid的MSQ(Multi-Stage Query)引擎采用分布式处理架构，查询任务会被自动拆分为多个并行执行的子任务。这种设计虽然提高了查询效率，但也导致了输出结果的碎片化。每个任务节点会生成自己的输出片段，最终在S3上表现为多个小文件。

现有解决方案的局限性

目前用户主要有两种获取查询结果的方式：

通过Druid API分页获取：这种方式需要多次请求，对于大数据量查询效率极低，实测1GB数据需要30分钟才能完整获取
直接输出到S3：虽然避免了API调用的性能问题，但需要用户自行处理多个碎片文件的合并，增加了使用复杂度

技术优化方案

经过社区讨论和验证，发现可以通过在SQL查询中添加LIMIT子句来优化这一行为。当查询包含LIMIT时，MSQ引擎会将最终阶段合并为单个任务执行，从而产生单一的输出文件。这种方案既保留了分布式查询的性能优势，又简化了结果获取流程。

实现细节

在Druid 29.0.1及更高版本中，用户可以通过以下方式实现单文件输出：

INSERT INTO EXTERN(
  's3://your-bucket/path',
  's3',
  '{"credentials":"..."}'
) AS CSV
SELECT * FROM your_table
LIMIT 1000000  -- 设置足够大的限制值

注意事项

LIMIT值需要足够大以包含所有预期结果
单任务执行可能影响超大结果集的性能
输出文件大小仍受Druid配置的单个任务输出限制

最佳实践建议

对于生产环境使用，建议：

评估结果集大小，合理设置LIMIT值
监控单个任务的资源使用情况
考虑将超大查询分批执行
定期检查新版本中的优化改进

这一优化显著提升了Druid深度存储查询的易用性，使大数据分析结果能够更便捷地与其他系统集成，进一步拓展了Druid在企业数据分析流水线中的应用场景。

druid

Druid是一个高速的数据查询引擎，主要用于OLAP场景。它的特点是快速查询、支持复杂查询语句、易于部署等。适用于数据分析和报告生成场景。

项目地址：https://gitcode.com/gh_mirrors/dru/druid

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

176

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

420

130

Apache Druid深度存储查询优化：实现S3单文件CSV输出

相关内容推荐

最新内容推荐

项目优选