Kedro项目中的Runner与Catalog解耦重构实践

2025-05-22 08:35:37作者：俞予舒Fleming

**探索数据科学的新境界：Kedro，打造生产级管道的艺术师** Kedro，一个由LF AI & Data Foundation托管的开源框架，正引领数据科学与工程步入模块化、可复制及维护性的新时代。借助其基于Cookiecutter的强大项目模板和直观的数据目录，Kedro让管理各种文件格式和系统的数据变得轻而易举。通过可视化管道和严谨的编码标准，Kedro不仅促进了团队间高效合作，还支持灵活部署到多种平台，包括云和分布式环境。无论是初学者还是专家，都能在Kedro的世界中找到构建稳健数据分析流程的乐趣。加入全球贡献者的行列，利用Kedro推动你的数据项目从概念到生产的飞跃，共创可信赖的智能应用。现在就启程，在Kedro的帮助下，让你的数据故事更加清晰有力！

项目地址：https://gitcode.com/gh_mirrors/ked/kedro

背景与问题分析

在Kedro数据工程框架中，Runner（运行器）和Catalog（数据目录）是两大核心组件。Runner负责执行管道（Pipeline），而Catalog则管理数据集（Dataset）的加载和保存。在早期版本中，这两个组件之间存在较强的耦合关系，特别是ParallelRunner（并行运行器）直接操作MemoryDataset和SharedMemoryDataset等具体数据集实现类，这违反了设计原则中的"依赖倒置原则"。

技术挑战

并行运行器的直接依赖问题：ParallelRunner直接修改数据集实例，并与特定数据集实现（如MemoryDataset）紧密耦合
Catalog接口方法边界模糊：存在release()、exists()、confirm()等方法是否应属于CatalogProtocol接口的争议
增量数据集特殊处理：IncrementalDataset的confirm逻辑被硬编码在Runner中

解决方案与重构设计

1. 并行运行器重构

将ParallelRunner中与数据集管理相关的逻辑迁移到SharedMemoryDataCatalog中。重构后：

ParallelRunner仅负责任务调度和并行执行
所有共享内存和同步管理由Catalog实现
数据集验证和初始化逻辑封装在Catalog内部

这种设计遵循了单一职责原则，使Runner只关注执行流程，而Catalog专注于数据管理。

2. Catalog接口方法优化

对于争议方法，团队确定了以下方案：

release()：保留在CatalogProtocol中，作为资源释放的标准接口
exists()：暂时保留但标记为可能移除，因为仅用于run_only_missing场景
confirm()：暂时保留但建议未来重构，考虑将其移至IncrementalDataset专属扩展接口

3. 增量数据集处理改进

虽然confirm()方法暂时保留在CatalogProtocol中，但团队认识到这属于增量数据集的特殊行为。长期解决方案应考虑：

为增量操作定义专门接口
使用策略模式或装饰器模式处理不同数据集类型的确认逻辑
避免将特定数据集行为污染通用Catalog接口

架构影响与优势

这次重构带来了显著的架构改进：

清晰的组件边界：Runner和Catalog职责分离，符合高内聚低耦合原则
更好的扩展性：用户可以自定义Catalog实现而不影响Runner工作
更合理的接口设计：CatalogProtocol更加专注于核心数据管理功能
并行处理解耦：为未来支持更多并行模式奠定基础

实施建议

对于想要进行类似解耦的项目，建议：

首先识别组件间的隐式依赖
定义清晰的接口边界
逐步迁移功能到正确的位置
为特殊用例考虑扩展机制而非修改核心接口
保持向后兼容性

未来方向

虽然当前重构解决了主要问题，但仍有一些优化空间：

完全移除exists()方法，寻找更优雅的缺失运行方案
将增量数据集确认逻辑移出核心接口
探索更灵活的数据集生命周期管理机制
考虑引入数据集操作的回调机制

这次重构展示了Kedro项目对软件设计原则的坚持，通过不断改进内部架构来提升框架的健壮性和可维护性，为使用者提供更清晰、更灵活的API设计。

**探索数据科学的新境界：Kedro，打造生产级管道的艺术师** Kedro，一个由LF AI & Data Foundation托管的开源框架，正引领数据科学与工程步入模块化、可复制及维护性的新时代。借助其基于Cookiecutter的强大项目模板和直观的数据目录，Kedro让管理各种文件格式和系统的数据变得轻而易举。通过可视化管道和严谨的编码标准，Kedro不仅促进了团队间高效合作，还支持灵活部署到多种平台，包括云和分布式环境。无论是初学者还是专家，都能在Kedro的世界中找到构建稳健数据分析流程的乐趣。加入全球贡献者的行列，利用Kedro推动你的数据项目从概念到生产的飞跃，共创可信赖的智能应用。现在就启程，在Kedro的帮助下，让你的数据故事更加清晰有力！

项目地址：https://gitcode.com/gh_mirrors/ked/kedro

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息