Apache Kyuubi 与 Atlas 集成中的血缘关系问题解析

2025-07-05 09:17:16作者：虞亚竹Luna

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

背景介绍

Apache Kyuubi 是一个分布式 SQL 引擎，提供了 Spark SQL 的 JDBC 接口服务。在实际应用中，数据血缘关系的追踪对于数据治理至关重要。Kyuubi 提供了与 Apache Atlas 集成的能力，可以将 Spark SQL 操作的血缘信息发送到 Atlas 进行管理和可视化。

问题现象

在使用 Kyuubi 的 Spark 血缘插件时，用户遇到了 AtlasServiceException 异常，错误信息显示"Referenced entity AtlasObjectId{guid='null', typeName='hive_column', uniqueAttributes={qualifiedName:default.test_table0.a@primary}} is not found"。这个错误发生在尝试将 Spark SQL 操作的血缘信息发送到 Atlas 服务时。

技术分析

血缘信息传递机制

Kyuubi 的 Spark 血缘插件工作原理如下：

通过 Spark SQL 的 QueryExecutionListener 机制捕获 SQL 执行计划
解析执行计划中的输入输出表和列信息
构建血缘关系实体
通过 Atlas REST API 将血缘信息发送到 Atlas 服务

错误原因

出现上述错误的核心原因是 Atlas 服务中缺少相应的元数据实体。具体来说：

Kyuubi 的血缘插件仅负责创建 spark_process 实体
相关的表实体（hive_table）和列实体（hive_column）需要预先存在于 Atlas 中
当 Atlas 找不到这些基础实体时，就会抛出 404 错误

解决方案

要解决这个问题，需要确保：

通过 Atlas Hive Bridge 或其他方式预先将 Hive 表的元数据同步到 Atlas
确保表结构变更后及时更新 Atlas 中的元数据
对于新创建的表，在执行 Spark SQL 操作前先完成元数据同步

未来展望

根据开发团队的反馈，未来可能会增强 Kyuubi 的血缘功能，包括：

自动同步基础表元数据到 Atlas
支持更多数据源的血缘关系追踪
提供更完善的文档和 FAQ 指导用户配置

最佳实践

对于当前版本的用户，建议采用以下实践：

确保 Atlas Hive Bridge 正常运行并同步了所有相关表的元数据
在 Spark SQL 操作前确认相关表已在 Atlas 中注册
监控血缘同步日志，及时发现并解决问题
对于复杂的数据流水线，考虑分步验证血缘关系

总结

Kyuubi 与 Atlas 的集成提供了强大的数据血缘追踪能力，但需要正确配置和预先同步基础元数据。理解这一机制有助于用户更好地利用这一功能进行数据治理。随着项目的不断发展，这一集成体验将会更加完善和易用。

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。