Hamilton框架中动态DAG任务生命周期适配器的扩展实践

2025-07-04 16:59:57作者：余洋婵Anita

Apache Hamilton helps data scientists and engineers define testable, modular, self-documenting dataflows, that encode lineage/tracing and metadata. Runs and scales everywhere python does.

项目地址：https://gitcode.com/gh_mirrors/ha/hamilton

在数据处理和任务编排领域，Hamilton框架因其声明式的DAG构建方式而备受开发者青睐。随着框架对动态DAG和并行执行的支持不断深化，开发者对任务执行过程的可观测性需求也日益增长。本文将深入探讨如何通过扩展生命周期适配器（Lifecycle Adapters）来实现动态DAG的多级进度监控，为开发者提供更精细的任务执行洞察。

背景与挑战

传统Hamilton框架的TaskExecutionHook仅提供任务执行前后的基础钩子，这在静态DAG场景下尚可满足需求。但当面对动态生成的并行任务时，开发者会遇到以下信息盲区：

无法感知当前任务组中的任务总数及索引位置
缺乏对整个DAG中任务组结构的全局视角
难以获取扩展任务(expander task)的参数化细节
无法区分任务类型（扩展器、收集器等）
缺少对任务生成关系的追踪

这些限制使得开发者难以构建精确反映并行任务执行状态的进度监控系统，特别是需要展示多级进度（如任务组进度和组内任务进度）的复杂场景。

技术方案设计

基于实际开发需求，我们提出了一套扩展方案：

核心扩展点

任务索引信息传递：
- 修改TaskImplementation对象，存储当前任务索引和总数
- 通过ExecutionState类将信息传递至生命周期钩子
任务关系增强：
- 在钩子中新增spawning_task_id参数追踪任务生成关系
- 添加purpose参数标识任务类型（NodeGroupPurpose枚举）
新增关键钩子：
- post_task_group：任务分组完成后触发
- post_task_expand：任务参数化扩展完成后触发

实现效果示例

通过上述扩展，开发者可以轻松实现如下的多级进度监控：

class TaskProgressHook(TaskExecutionHook, TaskGroupingHook, GraphExecutionHook):
    def __init__(self):
        self._progress = rich.progress.Progress()
        
    def run_after_task_grouping(self, *, tasks: List[TaskSpec], **kwargs):
        self._progress.add_task("Task Groups:", total=len(tasks))
        
    def run_after_task_expansion(self, *, parameters: dict, **kwargs):
        self._progress.add_task("Parallel Tasks:", total=len(parameters))
        
    def run_after_task_execution(self, *, purpose: NodeGroupPurpose, **kwargs):
        if purpose == NodeGroupPurpose.EXECUTE_BLOCK:
            self._progress.advance(task_id=1)  # 更新并行任务进度
        else:
            self._progress.advance(task_id=0)  # 更新任务组进度