OpenLineage项目中Spark数据源路径提取的优化实践

2025-07-06 01:13:53作者：宗隆裙

背景介绍

在Spark数据处理过程中，OpenLineage作为数据血缘追踪工具，能够自动捕获数据输入输出路径等重要元数据。然而，在处理特定类型的数据源时，现有的路径提取机制存在一些局限性。

问题发现

当使用Spark读取HDFS上分区的JSON数据集时，系统日志中会出现警告信息，提示无法从ParallelCollectionRDD的ArrayBuffer中提取路径信息。这种情况通常发生在以下场景：

数据存储在HDFS分区目录结构中
使用Spark的json格式读取器加载数据
数据集包含大量分区文件（示例中显示有3831个路径）

技术分析

OpenLineage的RddPathUtils工具类原本设计用于处理Seq[Tuple2[...]]类型的数据结构，但在实际运行中发现Spark 3.3.3版本会产生ArrayBuffer[org.apache.hadoop.fs.Path]类型的数据结构，导致路径提取失败。

解决方案

针对这一问题，我们提出了改进方案：

在ParallelCollectionRDDExtractor的extract方法中增加对ArrayBuffer类型的支持
实现ArrayBuffer到Seq的转换逻辑
确保路径提取后能够正确转换为父路径

核心代码逻辑如下：

else if ((data instanceof ArrayBuffer) && !((ArrayBuffer<?>) data).isEmpty()) {
    ArrayBuffer dataBuffer = (ArrayBuffer) data;
    return ScalaConversionUtils.fromSeq(dataBuffer.toSeq()).stream()
            .map(o -> parentOf(o.toString()))
            .filter(Objects::nonNull);
}