Apache Kyuubi中Spark血缘关系解析的缺陷分析与修复

2025-07-08 18:43:36作者：宣海椒Queenly

背景介绍

Apache Kyuubi是一个开源的分布式SQL引擎，它提供了JDBC接口来执行SQL查询。在数据处理领域，数据血缘（Lineage）追踪是一个重要功能，它可以帮助用户理解数据的来源和流转过程。Kyuubi通过org.apache.kyuubi.plugin.lineage.Lineage类来记录SQL操作的数据血缘信息。

问题发现

在特定场景下，Kyuubi生成的血缘关系对象会出现错误。具体表现为：当用户通过临时视图（temporary view）向目标表插入数据时，系统本应生成完整的血缘关系信息，但实际上却生成了一个值为None的空对象。

问题复现步骤

首先创建一个基于CSV文件的临时视图：

CREATE OR REPLACE TEMPORARY VIEW temp_view
(
 `a` STRING COMMENT '',
 `b` STRING COMMENT ''
)
USING csv OPTIONS(
    sep='\t',
    path='数据文件路径'
);

然后执行插入操作，将临时视图数据写入目标表：

insert overwrite table test_db.test_table_from_dir
SELECT
    `a`,
    `b`
FROM temp_view

在执行上述插入语句时，系统尝试生成血缘关系信息，但结果不正确。

预期与实际的差异

按照预期，系统应该生成如下完整的血缘关系信息：

inputTables(List())
outputTables(List(spark_catalog.test_db.test_table_from_dir))
columnLineage(List(ColumnLineage(spark_catalog.test_db.test_table_from_dir.a0,Set()), ColumnLineage(spark_catalog.test_db.test_table_from_dir.b0,Set())))

但实际上，系统生成了一个None值，导致血缘信息完全缺失。

问题根源分析

通过代码分析发现，问题出在LogicalPlan对象的解析逻辑上。当前实现中，当解析过程中遇到某些特殊情况时，系统会触发"try-recover"自我保护机制，导致最终返回None值而不是正确的血缘关系对象。

问题影响

单元测试环境

在单元测试中，当代码尝试获取这个None值时，会抛出None.get异常，导致测试失败。异常堆栈显示：

None.get
java.util.NoSuchElementException: None.get
    at scala.None$.get(Option.scala:529)

生产环境

在生产环境中，这个None值会导致血缘关系功能完全失效，用户无法获取任何关于数据流转的信息，严重影响数据治理和追踪能力。

解决方案

针对这个问题，社区已经提出了修复方案。修复的核心思路是改进LogicalPlan的解析逻辑，确保在遇到临时视图等特殊情况时，仍能正确生成血缘关系信息，而不是简单地返回None值。

修复后的代码能够正确处理临时视图到目标表的数据流转场景，确保血缘关系的完整性和准确性。这对于依赖Kyuubi进行数据治理的企业用户来说尤为重要，因为它保证了数据流转过程的可追溯性。

总结

数据血缘是数据治理的重要组成部分，Kyuubi作为SQL执行引擎，其血缘关系功能的稳定性直接影响用户的数据管理能力。这次修复不仅解决了一个具体的技术问题，也提升了整个系统在复杂场景下的可靠性。对于使用Kyuubi的用户来说，升级到包含此修复的版本将获得更稳定的血缘关系追踪能力。

kyuubi

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuubi1/kyuubi

登录后查看全文

Apache Kyuubi中Spark血缘关系解析的缺陷分析与修复

背景介绍

问题发现

问题复现步骤

预期与实际的差异

问题根源分析

问题影响

单元测试环境

生产环境

解决方案

总结

热门内容推荐

最新内容推荐

项目优选

Apache Kyuubi中Spark血缘关系解析的缺陷分析与修复

背景介绍

问题发现

问题复现步骤

预期与实际的差异

问题根源分析

问题影响

单元测试环境

生产环境

解决方案

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选