Apache Kyuubi 与 Atlas 集成中的血缘关系问题解析

2025-07-03 10:14:47作者：董宙帆

背景介绍

Apache Kyuubi 是一个分布式 SQL 引擎，提供了 Spark SQL 的 JDBC/ODBC 接口服务。在数据治理领域，Kyuubi 提供了与 Apache Atlas 集成的功能，用于收集和上报 Spark SQL 操作的血缘关系信息。

问题现象

在使用 Kyuubi 的 Spark 血缘关系功能时，用户遇到了 AtlasServiceException 异常，错误信息显示"Referenced entity AtlasObjectId{guid='null', typeName='hive_column', uniqueAttributes={qualifiedName:default.test_table0.a@primary}} is not found"。这个错误发生在尝试将 Spark SQL 操作的血缘关系信息发送到 Atlas 时。

技术分析

血缘关系收集机制

Kyuubi 通过 SparkOperationLineageQueryExecutionListener 监听器收集 Spark SQL 操作的血缘关系信息。当执行 SQL 语句时，监听器会解析执行计划，提取输入表和输出表的信息，以及字段级别的血缘关系。

Atlas 集成工作原理

Kyuubi 的 AtlasLineageDispatcher 负责将收集到的血缘关系信息发送到 Atlas。它主要创建以下类型的实体：

spark_process：表示 Spark 作业执行过程
spark_column_lineage：表示字段级别的血缘关系

问题根源

错误信息表明，Atlas 中找不到引用的 hive_column 实体。这是因为：

Kyuubi 仅负责创建 spark_process 和 spark_column_lineage 实体
相关的 hive_table 和 hive_column 实体需要预先通过其他方式（如 Atlas Hive Bridge）注册到 Atlas 中
当 Kyuubi 尝试建立血缘关系时，如果引用的表或字段不存在于 Atlas 中，就会抛出此异常

解决方案

要解决这个问题，需要确保：

在 Atlas 中预先注册所有相关的 Hive 表结构
确保 Atlas Hive Bridge 正常运行，能够捕获 Hive 元数据变更
对于新创建的表，需要等待 Atlas 完成元数据同步后再执行需要血缘跟踪的操作

未来改进方向

Kyuubi 社区已经意识到这个问题，并计划在未来版本中改进：

增强文档说明，明确使用前提条件
可能增加自动创建缺失实体的功能
提供更友好的错误提示和解决方案建议

最佳实践建议

对于需要使用 Kyuubi 血缘功能的用户，建议：

确保 Atlas 基础设施完整配置
验证 Hive 元数据同步机制正常工作
对于关键业务表，预先确认其在 Atlas 中的存在性
监控血缘上报日志，及时发现并解决问题

通过理解这些问题和解决方案，用户可以更好地利用 Kyuubi 与 Atlas 的集成功能，实现全面的数据血缘追踪和管理。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库