Hamilton项目中多输出装饰器的使用技巧

2025-07-04 22:06:40作者：苗圣禹Peter

Your single tool to express data, ML, and LLM pipelines with simple python functions. Runs anywhere that python runs, E.G. spark, airflow, jupyter, fastapi, etc. Incrementally adoptable. Use Hamilton to build testable, reusable, and self-documenting dataflows with lineage and metadata out of the box.

项目地址：https://gitcode.com/gh_mirrors/ha/hamilton

背景介绍

在数据工程领域，我们经常需要将处理后的数据同时保存到多个目标系统中。例如，一份清洗后的数据可能需要同时存入数据湖和数据仓库。Hamilton作为一个流行的Python微框架，提供了强大的装饰器功能来实现这一需求。

问题发现

在使用Hamilton框架时，开发者可能会遇到一个常见需求：如何将同一个函数的输出结果同时保存到多个目标位置。例如，我们可能希望将处理后的数据同时保存到BigQuery和本地文件系统。

当尝试在同一个函数上使用多个@save_to装饰器时，系统会抛出错误提示找不到对应的保存器类。这是因为Hamilton默认情况下会尝试自动推断输出类型，而当有多个保存目标时，这种推断机制会出现冲突。

解决方案

Hamilton实际上已经内置了对多输出装饰器的支持，只是需要通过特定的参数配置来实现。关键在于使用两个重要参数：

target_参数：用于显式指定保存目标的名称
output_name_参数：用于自定义输出节点的名称

通过合理配置这两个参数，我们可以轻松实现同一函数输出到多个目标的需求。例如：

@save_to.bigquery(table_name="poster_history", target_="bigquery_output")
@save_to.parquet(path="output.parquet", target_="parquet_output")
def process_data(input_data: pd.DataFrame) -> pd.DataFrame:
    # 数据处理逻辑
    return processed_data