Apache Kyuubi 与 HDFS 高可用环境下的元数据访问问题解析

2025-07-05 13:31:12作者：胡唯隽

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

问题背景

在 Apache Kyuubi 与 HDFS 高可用(HA)集成的环境中，当用户通过 DBeaver 工具访问 Kyuubi 服务查询 Hive 元数据时，可能会遇到"Operation category READ is not supported in state standby"的错误。这一现象通常发生在 NameNode 主备切换的场景中，值得深入分析其技术原理和解决方案。

技术原理分析

该问题的调用链涉及多个组件：

客户端(DBeaver)通过 JDBC 驱动连接 Kyuubi 服务
Kyuubi Server 将请求转发给 Spark Driver
Spark 通过 Hive Metastore(HMS)获取元数据
HMS 最终需要访问 HDFS 获取实际存储信息

问题的核心在于：

HDFS HA 环境下，当客户端访问处于 Standby 状态的 NameNode 时，会直接抛出异常
传统的 HDFS 客户端配置了 failover 机制(如 ConfiguredFailoverProxyProvider)，理论上应自动切换到 Active NameNode
但在某些特定场景下，这种自动切换机制可能失效

根本原因

经过深入分析，发现问题的根本原因是：

Hive Metastore 中存储的某些系统库(如 sys 和 information_schema)的路径仍然使用旧的 NameNode 地址(hdfs://namenode:8020/...)
当这些路径被访问时，HDFS 客户端会直接尝试连接指定的 NameNode，而不会触发 HA 切换机制
这与 SPARK-22121 提出的问题类似，但该补丁未被 Spark 社区采纳

解决方案

针对该问题，推荐以下解决方案：

方案一：修改 HMS 元数据路径

将 sys 和 information_schema 库的存储路径从具体 NameNode 地址改为 HA 命名服务地址
例如：
- 原路径：hdfs://ali-odp-test-01.huan.tv:8020/warehouse/.../sys.db
- 修改为：hdfs://ha-nn/warehouse/.../sys.db

方案二：检查 HDFS 客户端配置

确保所有相关服务(包括 HMS)都配置了正确的 HA 参数：

<property>
  <name>dfs.client.failover.proxy.provider.ha-nn</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

方案三：考虑使用定制补丁

对于关键生产环境，可以考虑使用包含 SPARK-22121 补丁的 Spark 发行版(如 Cloudera 提供的版本)，该补丁实现了 namenode 地址到 nameservice 的自动转换。

最佳实践建议

在启用 HDFS HA 前，应预先规划并修改所有系统库的存储路径
定期检查 HMS 中存储的路径信息，确保使用 HA 命名服务而非具体节点地址
对于新创建的数据库和表，应在创建时就指定 HA 命名服务路径
在测试环境充分验证 HA 切换场景下的各项功能

总结

HDFS 高可用环境下的元数据访问问题是一个典型的分布式系统集成问题，涉及多组件协作。通过理解其技术原理和掌握解决方案，可以有效提升系统的稳定性和可用性。对于使用 Apache Kyuubi 的企业用户，建议将上述解决方案纳入系统运维手册，确保在 HDFS HA 环境下获得最佳体验。

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端