Apache Kyuubi 中 DBeaver 访问 Hive 表时 NameNode 高可用问题分析

2025-07-03 05:43:37作者：鲍丁臣Ursa

问题背景

在使用 Apache Kyuubi 作为 SQL 网关时，当通过 DBeaver 客户端工具访问 Hive 表时，如果 HDFS NameNode 处于高可用(HA)配置下且当前访问的 NameNode 处于 standby 状态，会出现"Operation category READ is not supported in state standby"的错误。这个问题特别出现在 Kerberos 和 LDAP 双重认证环境下。

问题本质

该问题的根本原因在于 Hive 元数据存储(HMS)中某些系统数据库(如 sys 和 information_schema)的存储路径仍然指向具体的 NameNode 地址(如 hdfs://ali-odp-test-01.huan.tv:8020)，而不是使用配置好的 nameservice(如 hdfs://ha-nn)。当这些 NameNode 处于 standby 状态时，Hive 无法自动切换到 active 节点，导致读取操作失败。

技术原理

在 HDFS 高可用环境中，客户端应该通过配置的 nameservice 访问 HDFS，而不是直接连接特定的 NameNode。nameservice 会自动处理主备切换。但在以下情况下会出现问题：

Hive 的系统数据库在启用 HA 前已经创建，其存储路径硬编码了具体的 NameNode 地址
这些路径信息被持久化在 Hive 元数据存储中
当这些 NameNode 变为 standby 时，Hive 仍然尝试从这些节点读取数据

解决方案

方案一：修改系统数据库路径

对于 Hive 的系统数据库(sys 和 information_schema)，需要手动修改其存储路径，从具体的 NameNode 地址改为使用 nameservice：

原路径：

hdfs://ali-odp-test-01.huan.tv:8020/warehouse/tablespace/managed/hive/sys.db
hdfs://ali-odp-test-01.huan.tv:8020/warehouse/tablespace/managed/hive/information_schema.db

修改为：

hdfs://ha-nn/warehouse/tablespace/managed/hive/sys.db
hdfs://ha-nn/warehouse/tablespace/managed/hive/information_schema.db

方案二：使用特定版本的 Spark

某些商业发行版(如 Cloudera)的 Spark 包含了补丁(SPARK-22121)，可以自动将 NameNode 地址转换为 nameservice。但社区版 Spark 没有包含这个功能。

最佳实践

在启用 HDFS HA 前，规划好 Hive 元数据的存储路径
确保所有数据库和表都使用 nameservice 而非具体 NameNode 地址
对于已存在的系统数据库，及时更新其存储路径
在生产环境考虑使用经过企业增强的 Spark 发行版

总结

这个问题展示了在大数据生态系统中，当底层存储系统(HDFS)配置变更时，上层组件(Hive)可能需要进行相应调整。理解各组件间的依赖关系和配置影响范围，对于构建稳定的大数据平台至关重要。通过合理规划存储路径和使用高可用机制，可以避免此类问题发生。

kyuubi

apache/kyuubi - 该项目是一个基于 Apache Spark 的 SQL 查询引擎，提供了一个交互式的命令行界面和 RESTful API，以便于用户快速查询和分析大规模数据集。

项目地址：https://gitcode.com/gh_mirrors/kyuu/kyuubi

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统