SecretFlow自定义组件开发指南：处理非结构化数据输入输出

2025-07-01 11:24:37作者：伍希望

概述

在SecretFlow项目开发自定义组件时，开发者经常需要处理非结构化数据（如图片、视频等）的输入输出问题。本文将详细介绍如何在SecretFlow中自定义数据源类型，以及如何处理非结构化数据的输入输出。

自定义数据源类型

SecretFlow通过DistDataType枚举类来定义各种数据类型。对于非结构化数据，我们可以扩展这个枚举类来添加新的数据类型。

@enum.unique
class DistDataType(BaseEnum):
    # 原有数据类型...
    IMAGE_DATA = "sf.file.images"  # 新增图片数据类型
    CUSTOM_MODEL = "sf.model.custom"  # 新增自定义模型类型

添加新类型后，组件就可以声明使用这些类型作为输入或输出。

非结构化数据处理

处理非结构化数据（如图片）时，关键点在于正确配置存储路径和访问方式。

存储配置

SecretFlow使用StorageConfig来配置数据存储位置。对于本地文件系统，可以这样配置：

storage_config = StorageConfig(
    type="local_fs",
    local_fs=StorageConfig.LocalFSConfig(wd=f"/tmp/{party}/data"),
)

其中wd参数指定了工作目录，所有非结构化数据文件都应存放在此目录或其子目录下。

数据引用

在组件内部，通过DistData.data_refs访问数据文件。每个data_ref包含以下关键信息：

uri：文件相对路径（相对于工作目录）
party：数据所属参与方
format：数据格式

例如，处理图片数据时：

def process_images(dist_data):
    for data_ref in dist_data.data_refs:
        image_path = os.path.join(storage_config.local_fs.wd, data_ref.uri)
        # 处理图片...

自定义模型处理

对于自定义模型，处理方式类似：

定义模型类型（如sf.model.custom）
在组件中实现模型加载和保存逻辑
通过data_refs引用模型文件

def save_custom_model(model, dist_data):
    model_path = os.path.join(storage_config.local_fs.wd, "custom_model.pth")
    torch.save(model.state_dict(), model_path)
    dist_data.data_refs.append(DataRef(uri="custom_model.pth", party="alice"))