Daft项目优化：迁移Parquet集成测试数据至S3存储

2025-06-28 16:01:02作者：何将鹤

在开源数据分析框架Daft的开发过程中，团队发现了一个影响测试稳定性的问题：集成测试依赖的Parquet测试数据存储在GitHub的rawcontent服务上，而频繁的测试请求会导致服务被限流。本文将深入分析这一问题背景、技术解决方案以及迁移到S3存储的优势。

问题背景

Daft框架在进行Parquet文件格式的集成测试时，需要访问特定的测试数据集。原本这些数据文件托管在GitHub的rawcontent服务上，开发团队通过HTTPS协议直接获取。但在持续集成(CI)环境中，频繁的测试请求会导致GitHub对请求进行限流(throttling)，表现为HTTP 429 Too Many Requests错误。

这种限流机制严重影响了开发流程：

导致自动化测试失败
延长了CI/CD管道的执行时间
增加了开发人员排查非代码问题的负担

技术解决方案

Daft团队决定将测试数据迁移到Amazon S3存储服务，具体方案包括：

在daft-public S3桶中创建专用目录存放Parquet测试文件
修改测试代码，将数据获取路径从GitHub切换到S3
确保S3桶的访问权限设置为公开读取
保留原始数据的完整性和校验机制

迁移后的数据访问URL格式示例： s3://daft-public/parquet-test-data/plain-dict-uncompressed-checksum.parquet

S3存储的优势

相比GitHub rawcontent，使用S3存储测试数据具有多方面优势：

更高的可靠性：S3设计为99.99%的可用性，远高于GitHub rawcontent的服务级别
更好的性能：S3专为大规模对象存储优化，提供更高的吞吐量和更低的延迟
弹性扩展：S3自动处理流量激增，不会因为频繁请求而限流
成本效益：对于公开读取的小型测试数据集，S3的成本几乎可以忽略不计
访问控制：可以通过IAM策略精细控制访问权限，未来如需限制访问也很方便

实施细节

在技术实现上，Daft团队需要：

使用AWS CLI或SDK将原始Parquet文件上传至S3
更新测试用例中的URL引用
添加适当的错误处理和重试逻辑
考虑本地开发环境与CI环境的统一访问方式
在文档中更新测试数据的位置说明

对于Python测试代码的修改，主要涉及将类似：

url = "https://raw.githubusercontent.com/apache/parquet-testing/master/data/plain-dict-uncompressed-checksum.parquet"

改为：

url = "s3://daft-public/parquet-test-data/plain-dict-uncompressed-checksum.parquet"

后续优化方向

这一改进为Daft项目打开了更多优化可能性：

测试数据版本管理：可以在S3中实现测试数据的版本控制
性能基准测试：稳定的数据源使得性能测试结果更加可靠
扩展测试数据集：不受GitHub限制，可以添加更大规模的测试数据
多区域部署：根据需要可以将测试数据复制到不同区域的S3桶

总结

Daft项目通过将Parquet集成测试数据从GitHub迁移到S3存储，显著提高了测试的稳定性和可靠性。这一改进不仅解决了当前的限流问题，还为项目的持续集成流程奠定了更坚实的基础。这种架构决策体现了开源项目在基础设施选择上的务实态度，平衡了可靠性、成本和维护复杂度等多方面因素。

Daft

High-performance data engine for AI and multimodal workloads. Process images, audio, video, and structured data at any scale

项目地址：https://gitcode.com/GitHub_Trending/da/Daft

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

266