Hamilton框架中Parallelizable与Collect的并行计算限制解析

2025-07-04 10:50:38作者：庞眉杨Will

Your single tool to express data, ML, and LLM pipelines with simple python functions. Runs anywhere that python runs, E.G. spark, airflow, jupyter, fastapi, etc. Incrementally adoptable. Use Hamilton to build testable, reusable, and self-documenting dataflows with lineage and metadata out of the box.

项目地址：https://gitcode.com/gh_mirrors/ha/hamilton

概述

在Hamilton数据处理框架中，开发者经常会遇到需要并行处理数据并收集多个结果的需求。本文深入分析了一个典型场景：当使用Parallelizable进行数据分片并行处理后，尝试通过多个Collect节点收集不同计算结果时遇到的限制问题。

问题现象

在Hamilton框架中构建DAG时，如果包含一个Parallelizable节点和两个Collect节点，系统无法同时返回两个Collect节点的结果。具体表现为当尝试获取第二个Collect结果时，会抛出"Key not found in cache"错误。

技术背景

Hamilton框架的并行处理机制基于以下核心概念：

Parallelizable：用于将输入数据分割成多个可并行处理的块
Collect：用于收集并行处理后的结果
动态执行：通过enable_dynamic_execution开启的实验性功能

问题根源分析

经过深入分析，发现这是Hamilton框架当前版本的一个已知限制。当多个Collect节点尝试从同一个Parallelizable流程中收集结果时，框架无法正确处理多个收集点的结果缓存和传递。

解决方案

标准解决方案

最直接的解决方案是在Collect之前合并需要收集的结果：

def all_metrics(sub_metric_1: ANALYSIS_RES, sub_metric_2: ANALYSIS_RES) -> ANALYSIS_RES:
    # 合并两个结果字典
    return {**sub_metric_1, **sub_metric_2}

def all_agg(all_metrics: Collect[ANALYSIS_RES]) -> pd.DataFrame:
    # 处理合并后的结果
    ...

高级解决方案

对于需要更灵活控制的情况，可以使用条件配置：

@resolve(
    when=ResolveAt.CONFIG_AVAILABLE,
    decorate_with= lambda metric_names: inject(sub_metrics=group(*[source(x) for x in metric_names])),
)
def all_metrics(sub_metrics: list[ANALYSIS_RES], columns: list[str]) -> pd.DataFrame:
    frames = []
    for a in sub_metrics:
        frames.append(_to_frame(a, columns))
    return pd.concat(frames)

配合配置设置：

_config = {settings.ENABLE_POWER_USER_MODE:True}
_config["metric_names"] = ["sub_metric_1", "sub_metric_2"]

最佳实践建议

对于相同分区的并行计算，优先采用结果合并方案
对于不同分区的计算，考虑使用独立的Parallelizable流程
灵活运用配置系统实现计算流程的动态控制
注意开启POWER_USER_MODE以使用高级功能

未来展望

Hamilton开发团队已经将此问题标记为待修复项。预计未来版本将支持直接从单个Parallelizable流程收集多个结果集，从而简化并行计算流程的设计。

通过理解这些限制和解决方案，开发者可以更高效地设计Hamilton数据处理流程，充分发挥框架的并行计算能力。

hamilton

项目地址：https://gitcode.com/gh_mirrors/ha/hamilton

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

198

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

694