Apache Kyuubi项目中Spark Hive连接器读取TPCDS Parquet表的兼容性问题分析

2025-07-05 21:52:56作者：何将鹤

背景介绍

Apache Kyuubi是一个分布式SQL引擎服务，提供了JDBC接口来访问Spark SQL的能力。在实际使用过程中，用户发现通过Kyuubi的Spark Hive连接器读取TPCDS测试数据集生成的Parquet格式表时遇到了兼容性问题。

问题现象

当用户使用Kyuubi Spark Hive连接器查询TPCDS数据集中的表（如catalog_sales和store_returns）时，系统抛出了ParquetDecodingException异常。具体表现为：

对于catalog_sales表，报错显示无法读取Parquet文件中的值，底层原因是Hive的Parquet读取器不支持PlainIntegerDictionary类型的字典解码
对于store_returns表，报错显示无法读取特定位置的值，原因是Hive的ETypeConverter实现不支持特定的类型转换操作

根本原因分析

经过深入分析，这个问题源于以下几个技术层面的限制：

Hive Parquet读取器的局限性：Kyuubi Spark Hive连接器目前使用Hive 2.3.9的SerDe实现来读写Hive表，其内置的Parquet读取器对新型Parquet格式的支持有限
字典编码兼容性问题：Spark生成的Parquet文件使用了较新的字典编码格式，而Hive的老版本Parquet读取器无法正确处理这些编码
类型系统差异：Spark和Hive在类型系统处理上存在差异，特别是在处理复杂类型和逻辑类型时

解决方案

目前可行的解决方案是在生成TPCDS数据时启用Spark的旧版Parquet格式支持：

SET spark.sql.parquet.writeLegacyFormat=true;

这个配置会让Spark使用与Hive兼容的旧版Parquet格式写入数据，从而避免后续读取时的兼容性问题。

未来改进方向

从技术架构角度看，Kyuubi团队可以考虑以下改进方向：

支持spark.sql.hive.convertMetastoreParquet配置，允许将Hive Parquet表读取转换为Spark DataSource表读取
升级Hive集成版本，以支持更多Parquet新特性
提供更灵活的数据源选择机制，让用户可以根据场景选择最优的读取路径

最佳实践建议

对于需要使用Kyuubi处理TPCDS等标准测试集的用户，建议：

在数据生成阶段就考虑下游系统的兼容性需求
对于性能敏感场景，考虑直接使用Spark原生数据源而非Hive连接器
关注Kyuubi的版本更新，及时了解对新型文件格式的支持进展

通过理解这些技术细节和限制，用户可以更好地规划数据架构和选择适当的技术方案。

kyuubi

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

项目地址：https://gitcode.com/gh_mirrors/kyuub/kyuubi

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.24 K

680