Kedro 0.19.12版本发布：数据管道与云存储能力升级

2025-06-05 04:24:29作者：史锋燃Gardner

Kedro是一个优秀的开源Python框架，专门用于构建可维护、可扩展的数据科学和机器学习管道。它采用了软件工程的最佳实践，为数据科学家和工程师提供了标准化的项目结构和开发模式。

核心功能增强

数据目录过滤功能

新版本引入了KedroDataCatalog.filter()方法，这是一个非常实用的功能升级。通过这个方法，开发者可以基于数据集名称和类型进行灵活筛选。例如，在处理大型项目时，可以快速过滤出所有CSV类型的数据集，或者筛选出特定前缀的数据集，这大大提升了开发效率。

命名空间节点分组

Pipeline.grouped_nodes_by_namespace属性的加入为插件开发者带来了便利。这个属性返回按命名空间分组的节点字典，使得插件能够更轻松地将属于同一命名空间的节点一起部署。这一改进特别适合需要按功能模块部署的场景。

云存储配置支持

0.19.12版本扩展了--conf-source的功能，现在可以直接从S3等云存储位置加载配置。这意味着团队可以将配置文件集中存储在云端，实现配置的统一管理和跨环境共享，这对于分布式团队和云原生部署尤为重要。

重要改进与修复

数据目录优化

开发团队对DataCatalog进行了多项优化，包括改进了_LazyDataset的打印显示效果，使其在调试时更加直观。同时，针对MemoryDataset处理Ibis Tables时的复制模式进行了修正，确保其能正确推断assign模式而非之前的deepcopy。

执行器优化

SequentialRunner的执行方式进行了调整，现在明确保证不使用执行器池，确保真正的单线程执行。这一改变消除了潜在的并发问题，使得执行行为更加可预测。

开发工具改进

修复了%load_node魔法命令与新版Jupyter Notebook(>=7.2.0)的兼容性问题，提升了开发体验。同时移除了Kedro Viz工具的默认集成，使其成为可选组件。

文档更新与最佳实践

文档方面，新增了对Delta Lake和Iceberg版本控制的支持说明，帮助用户更好地利用这些技术进行数据版本管理。节点分组部署的文档为插件开发者提供了明确指导。

特别值得注意的是，文档更新了对命名空间嵌套使用的建议，反映了项目团队对架构设计的最新思考。这些最佳实践的分享对于构建可维护的大型项目非常有价值。

总结

Kedro 0.19.12版本在数据管理、云集成和开发体验方面都有显著提升。新加入的数据目录过滤和云配置支持功能，展现了Kedro对现代数据工程需求的积极响应。命名空间节点分组则为复杂项目的模块化部署提供了更好的支持。这些改进共同强化了Kedro作为企业级数据管道框架的地位。

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

462

5.49 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.11 K

1.15 K