首页
/ Apache Arrow DataFusion 支持访问无需认证的公开 S3 存储桶

Apache Arrow DataFusion 支持访问无需认证的公开 S3 存储桶

2025-06-13 06:09:03作者:滕妙奇

在数据分析领域,Apache Arrow DataFusion 作为一个高性能的查询引擎,其命令行工具 datafusion-cli 近期面临一个关于 S3 存储访问的改进需求。目前,当用户尝试访问某些公开的 S3 存储桶(如 clickbench 公共数据集)时,即使这些存储桶不需要任何身份验证,系统仍然强制要求提供 AWS 凭证,这显然不符合实际使用场景的需求。

背景与现状

许多公共数据集存储在 S3 上并设置为公开访问,例如 clickhouse-public-datasets。这类存储桶通常允许任何用户直接读取数据而无需身份验证。然而,当前 datafusion-cli 的实现中,即使用户明确知道目标存储桶是公开的,仍然必须配置 AWS 凭证才能访问,否则会返回"the credential provider was not enabled"的错误。

这种限制不仅增加了不必要的配置复杂度,也与业界其他工具(如 ClickHouse)的行为不一致。例如,ClickHouse 允许用户直接通过 S3 表引擎访问公开存储桶,无需任何凭证配置。

技术实现方案

DataFusion 底层使用的 object_store 库实际上已经支持跳过签名验证的功能。具体来说,AmazonS3Builder 提供了 with_skip_signature 方法,可以绕过凭证验证流程。当前需要的是在 datafusion-cli 中暴露这一功能,使用户能够灵活选择是否跳过签名验证。

理想的解决方案是允许用户通过 SQL 语句的 OPTIONS 部分指定相关参数。例如:

CREATE EXTERNAL TABLE hits
STORED AS PARQUET 
LOCATION 's3://clickhouse-public-datasets/hits_compatible/hits.parquet' 
OPTIONS(aws.skip_signature true, aws.region 'eu-central-1');

更进一步,系统还可以实现自动检测机制:当用户没有提供任何凭证时,自动尝试以无验证方式访问 S3 存储桶,仅在访问失败时才要求提供凭证。

技术挑战与考量

实现这一功能时需要考虑几个关键点:

  1. 安全性:虽然跳过验证对公开存储桶是必要的,但需要确保不会意外地将需要验证的私有存储桶暴露为公开访问
  2. 兼容性:保持与现有凭证配置方式的兼容,不影响已使用凭证验证的用户
  3. 错误处理:当存储桶实际需要验证而用户配置了跳过验证时,需要提供清晰的错误信息

未来展望

这一改进将显著提升 DataFusion 在访问公共数据集场景下的用户体验。它不仅简化了配置流程,也使 DataFusion 在功能上与其他数据分析工具保持了一致。对于数据分析师和研究人员来说,这意味着他们可以更便捷地访问各种公开基准测试数据集,如 clickbench 等,从而更高效地进行性能测试和算法验证。

随着数据开放共享的趋势不断增强,支持无需认证的公共数据访问将成为查询引擎的一项重要能力。DataFusion 的这一改进将使其在开源数据分析生态系统中保持竞争力,并为用户提供更加灵活的数据处理能力。

登录后查看全文
热门项目推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
152
1.97 K
kernelkernel
deepin linux kernel
C
22
6
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
426
34
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
239
9
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
190
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
988
394
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
193
274
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
936
554
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
75
69