AWS SDK for Pandas中Ray并行参数变更的技术解析

2025-06-16 08:23:00作者：魏侃纯Zoe

pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

在最新发布的AWS SDK for Pandas（原AWSSDK Pandas）中，开发团队注意到一个重要的API变更。这个变更涉及到使用Ray引擎进行并行读取Parquet文件时的参数配置方式，特别是在Ray 2.10版本中引入的向后不兼容修改。

背景知识

AWS SDK for Pandas是一个强大的Python工具库，它简化了AWS服务（如S3）与Pandas DataFrame之间的数据交互。当处理大规模数据集时，该库支持使用Ray作为计算后端来实现并行处理，显著提高数据读取和处理的效率。

参数变更详情

在Ray 2.10版本之前，开发者可以通过ray_args参数中的parallelism选项来控制数据读取的并行度。例如：

df = wr.s3.read_parquet(
    path="s3://my-bucket/data/",
    ray_args={"parallelism": 8}
)

然而，从Ray 2.10开始，这个参数已被标记为弃用，取而代之的是override_num_blocks参数。这个变更反映了Ray内部架构的演进，使得参数命名更加准确地表达了其实际功能。

技术影响分析

向后兼容性：目前旧参数仍然可用，但会触发警告信息
性能影响：新参数在功能上完全等价，不会影响实际执行效率
代码维护性：建议尽快迁移到新参数，以确保未来版本的兼容性

迁移建议

开发者应该将现有代码更新为以下形式：

df = wr.s3.read_parquet(
    path="s3://my-bucket/data/",
    ray_args={"override_num_blocks": 8}
)

对于需要支持多版本Ray环境的代码，可以考虑以下兼容性写法：

ray_args = {"override_num_blocks": 8} if ray.__version__ >= "2.10" else {"parallelism": 8}
df = wr.s3.read_parquet(path="s3://my-bucket/data/", ray_args=ray_args)

底层原理

这个变更反映了Ray团队对API设计的重新思考。override_num_blocks更准确地描述了参数的实际作用——它控制的是数据被划分成的块(block)数量，而每个块会被分配给不同的工作进程处理。这种命名方式使得API的意图更加明确，有助于开发者更好地理解和使用并行处理功能。

最佳实践

及时更新依赖版本并处理弃用警告
在CI/CD流程中加入弃用警告检查
对于关键业务代码，考虑固定Ray版本直到完成迁移
监控并行任务执行情况，合理设置块数量

通过这次变更，我们可以看到AWS SDK for Pandas和Ray项目都在持续优化其API设计，为开发者提供更清晰、更一致的编程体验。及时跟进这些变更将有助于保持代码的长期可维护性。

aws-sdk-pandas

项目地址：https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

515

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

647

284

AWS SDK for Pandas中Ray并行参数变更的技术解析

背景知识

参数变更详情

技术影响分析

迁移建议

底层原理

最佳实践

热门内容推荐

最新内容推荐

项目优选

AWS SDK for Pandas中Ray并行参数变更的技术解析

背景知识

参数变更详情

技术影响分析

迁移建议

底层原理

最佳实践

相关内容推荐

热门内容推荐

最新内容推荐

项目优选