首页
/ Apache Druid 集成 Pure Storage S3 存储的解决方案

Apache Druid 集成 Pure Storage S3 存储的解决方案

2025-05-16 02:08:12作者:冯爽妲Honey

背景介绍

Apache Druid 作为一款高性能的实时分析数据库,通常需要与对象存储服务集成来持久化数据。在实际生产环境中,用户可能会选择不同的对象存储解决方案,其中 Pure Storage FlashBlade 是一种高性能的存储系统,提供了兼容 S3 协议的接口。然而,在将 Druid 与 Pure Storage S3 集成时,用户可能会遇到写入失败的问题。

问题现象

当配置 Druid 使用 Pure Storage 作为后端存储时,系统会出现以下错误:

java.lang.RuntimeException: java.io.IOException: com.amazonaws.services.s3.model.AmazonS3Exception: 
A header you provided implies functionality that is not implemented.
(Service: Amazon S3; Status Code: 501; Error Code: NotImplemented)

具体表现为:

  1. 能够从 Pure Storage S3 读取数据段(get操作)
  2. 能够将数据保存到本地目录
  3. 但无法将数据段写入(push操作)到 Pure Storage S3

根本原因分析

这个问题的本质在于 Pure Storage 的 S3 实现与标准 AWS S3 服务存在一些功能差异。错误信息中的"501 Not Implemented"状态码表明,Druid 尝试使用的某些 S3 API 功能在 Pure Storage 的实现中尚未支持。

经过深入分析,问题主要出在 Druid 默认会尝试使用 S3 的访问控制列表(ACL)功能,而 Pure Storage 的 S3 实现可能不完全支持这些 ACL 操作。

解决方案

要解决这个问题,需要在 Druid 的配置中显式禁用 ACL 功能。具体配置如下:

对于主存储:

druid_storage_disableAcl: "true"

对于索引器日志存储:

druid_indexer_logs_disableAcl: "true"

完整配置建议

除了禁用 ACL 外,针对 Pure Storage S3 的完整推荐配置还包括:

druid_storage_type: s3
druid_storage_baseKey: warehouse
druid_storage_bucket: druid
druid_storage_storageDirectory: s3a://druid/warehouse/
druid_indexer_logs_type: s3
druid_indexer_logs_directory: s3a://druid/logs/
druid_indexer_logs_s3Bucket: druid
druid_indexer_logs_s3Prefix: logs
druid_storage_useS3aSchema: "true"
druid_s3_disableChunkedEncoding: "true"
druid_s3_credential: "your-credential"
druid_s3_secret: "your-secret"
druid_s3_protocol: http
druid_s3_enablePathStyleAccess: "true"
druid_s3_endpoint_signingRegion: us-east-1
druid_s3_endpoint_url: http://your-pure-storage-endpoint
druid_s3_forceGlobalBucketAccessEnabled: "true"
druid_storage_disableAcl: "true"
druid_indexer_logs_disableAcl: "true"

技术原理

禁用 ACL 后,Druid 将不再尝试设置对象级别的访问权限,而是依赖存储桶级别的权限控制。这种模式与许多非 AWS 的 S3 兼容存储服务更加匹配,特别是那些不完全实现 S3 ACL 功能的存储系统。

验证与测试

在实际环境中验证该解决方案时,需要注意:

  1. 确保 Pure Storage S3 服务正常运行
  2. 验证配置中的 endpoint URL 和认证信息正确无误
  3. 检查存储桶的权限设置是否允许 Druid 进行读写操作
  4. 监控初始数据写入过程,确认没有其他兼容性问题

总结

通过禁用 S3 ACL 功能,Druid 可以成功与 Pure Storage FlashBlade S3 服务集成。这个解决方案不仅适用于 Pure Storage,对于其他不完全兼容标准 S3 API 的对象存储服务也有参考价值。在实际部署时,建议先在小规模环境中验证配置,确认一切正常后再推广到生产环境。

对于企业用户来说,理解不同存储服务的 API 兼容性差异非常重要,这有助于在架构设计阶段就做出合理的技术选型,避免后期集成时遇到类似问题。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
202
2.17 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
208
285
pytorchpytorch
Ascend Extension for PyTorch
Python
61
94
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
977
575
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
550
83
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
399
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
393
27
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
1.2 K
133