OpenLineage 1.27.0版本发布：Flink原生监听器与数据集类型增强

2025-06-25 19:22:26作者：俞予舒Fleming

项目概述

OpenLineage是一个开源的数据血缘追踪框架，它通过收集和标准化来自各种数据处理系统的元数据，帮助组织理解数据如何在系统中流动。作为一个跨平台的解决方案，OpenLineage支持多种数据处理引擎和工具，包括Spark、Flink、dbt等，为数据治理、合规性和数据质量提供了坚实的基础。

核心更新内容

Flink原生血缘监听器（实验性功能）

本次1.27.0版本引入了一个重要的实验性功能——Flink原生血缘监听器。这个新组件通过直接利用Flink 2.0的原生接口来提取数据血缘信息，特别针对Flink SQL操作提供了支持。与之前的实现相比，这种原生集成方式能够更深入地理解Flink作业的执行计划，从而提供更准确和全面的血缘信息。

对于使用Flink 2.0及以上版本的用户，现在可以体验这种更紧密的集成方式，它能够捕获SQL转换过程中的数据流动情况，为数据治理提供更可靠的依据。

dbt集成功能扩展

dbt作为现代数据栈中的重要组件，其与OpenLineage的集成得到了进一步增强。新版本增加了对dbt的test和build命令的支持，这意味着现在可以捕获更多类型的dbt操作产生的血缘信息。

特别是对于数据测试(test)场景，这一改进使得数据质量检查的元数据也能被纳入到整体的血缘图谱中，为数据质量监控提供了更完整的视角。同时，build命令的支持则覆盖了更全面的dbt工作流场景。

数据集类型标准化

在元数据标准化方面，1.27.0版本引入了DatasetTypeDatasetFacet这一新的facet类型。这个facet允许明确声明结果数据集的类型，为下游系统提供了更清晰的语义信息。例如，可以区分一个数据集是表、视图还是临时查询结果，这种类型信息对于理解数据资产的本质非常有价值。

Spark集成改进

Spark集成方面有几个重要改进：

RDD执行上下文增强：现在可以为RDDExecContext事件附加自定义facet，这些facet通过InternalHandlerFactory加载。这一变化使得Spark作业中RDD操作的元数据收集更加灵活和可扩展。
性能优化：修复了RDD扁平化处理中的无限循环问题，并优化了性能，特别是对于具有复杂依赖关系和嵌套RDD树的大型作业。
序列化事件处理：不再对非Delta计划过滤SerializedFromObject事件，使得这一功能在非Databricks/Delta生态系统中也能正常工作。
类加载器问题修复：解决了与Spark扩展接口实现共存时的类加载器冲突问题，提高了集成稳定性。

Python SDK增强

Python SDK现在支持向facet添加additionalProperties，提供了更大的灵活性。同时修复了FileTransport在append=False时未能正确附加json文件扩展名的问题，提高了文件输出的可靠性。

技术影响与最佳实践

对于已经使用OpenLineage的组织，1.27.0版本提供了几个值得关注的升级点：

Flink用户：建议评估新的原生监听器，虽然目前处于实验阶段，但它代表了未来Flink集成的方向，可能提供更好的血缘捕获能力。
dbt用户：现在可以更全面地捕获dbt工作流中的元数据，特别是数据测试相关的信息，这对于构建端到端的数据质量监控体系非常有帮助。
Spark用户：RDD相关改进使得复杂Spark作业的血缘跟踪更加可靠，特别是对于使用大量RDD转换的工作负载。
元数据消费者：新的DatasetTypeDatasetFacet为理解数据集本质提供了标准化方式，建议在自定义集成中利用这一facet来丰富元数据语义。

升级建议

升级到1.27.0版本时，需要注意以下几点：

Flink原生监听器需要Flink 2.0或更高版本，且目前处于实验阶段，生产环境使用需谨慎评估。
对于使用自定义Spark facet的组织，需要检查RDDExecContext相关的修改是否会影响现有集成。
Python SDK的FileTransport行为变更可能会影响文件命名，需要验证现有文件处理逻辑。
建议充分利用新的DatasetTypeDatasetFacet来增强元数据语义，这有助于构建更智能的数据目录和治理工具。

OpenLineage 1.27.0通过引入新功能和改进现有集成，进一步巩固了其作为数据血缘管理标准解决方案的地位。特别是对Flink和dbt的增强，使得这一版本对于现代数据栈用户尤其有价值。

OpenLineage

An Open Standard for lineage metadata collection

项目地址：https://gitcode.com/gh_mirrors/op/OpenLineage

登录后查看全文

OpenLineage 1.27.0版本发布：Flink原生监听器与数据集类型增强

项目概述

核心更新内容

Flink原生血缘监听器（实验性功能）

dbt集成功能扩展

数据集类型标准化

Spark集成改进

Python SDK增强

技术影响与最佳实践

升级建议

热门内容推荐

最新内容推荐

项目优选

OpenLineage 1.27.0版本发布：Flink原生监听器与数据集类型增强

项目概述

核心更新内容

Flink原生血缘监听器（实验性功能）

dbt集成功能扩展

数据集类型标准化

Spark集成改进

Python SDK增强

技术影响与最佳实践

升级建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选