SuperDuperDB组件间任务依赖机制设计与实现

2025-06-09 16:24:14作者：平淮齐Percy

背景与需求分析

在现代数据处理系统中，组件间的任务依赖关系管理是一个核心问题。SuperDuperDB作为一个数据科学开发框架，需要处理组件初始化、实时触发和批量处理等多种场景下的任务调度问题。

典型场景包括：

特征计算组件生成特征数据
PCA训练组件基于特征数据进行降维模型训练
降维特征计算组件应用训练好的模型

这种链式依赖关系需要系统能够：

管理组件初始化时的批量任务
处理实时数据变更触发的任务
确保任务执行的正确顺序和依赖关系

事件驱动架构设计

SuperDuperDB采用事件驱动架构来解决组件间任务依赖问题。核心设计包括三种事件类型：

1. 组件初始化事件

当组件被创建并应用到数据库时触发，用于处理已有数据的批量处理任务。这类事件包含：

源组件和目标组件标识
事件来源标记为"COMPONENT"
需要处理的数据ID列表
事件类型为"INSERT"

2. 数据库变更事件

由数据库操作(插入、更新等)触发，用于处理增量数据。包含：

变更的数据表信息
受影响的数据ID
事件来源标记为"DB"
具体操作类型

3. 任务调度事件

用于触发新组件或函数的执行，管理任务间的依赖关系。

任务依赖实现机制

组件初始化流程

组件被添加到数据库时，调用schedule_jobs方法
创建组件初始化事件并放入对应队列
消费者接收事件后处理所有指定ID的数据
返回任务依赖信息供下游组件使用

实时处理流程

数据库变更触发事件并放入上游组件队列
上游组件处理完成后生成新事件放入下游队列
下游组件消费者创建任务并等待上游任务完成

依赖关系管理

通过任务ID实现显式依赖：

上游组件初始化返回任务ID
下游组件应用时指定依赖任务
系统确保依赖任务完成后才执行下游任务

典型应用场景实现

以特征计算和模型训练为例：

# 1. 创建特征计算监听器
feature_listener = Listener(model=feature_model, select=`table`, key=`x`)
feature_dependencies = db.apply(feature_listener)

# 2. 创建可训练模型
trainable_model = Model(
    trainer=Trainer(select=feature_listener.outputs_select),
    validation=Validation(datasets=[Dataset(select=feature_listener.outputs_select)])
)

# 3. 创建模型监听器并指定依赖
trainable_listener = Listener(model=trainable_model, select=feature_listener.outputs_select)
db.apply(trainable_listener, dependencies=feature_dependencies)

实现特点：