Kyuubi项目与Apache Spark 4.0.0的兼容性适配实践

2025-07-04 01:27:29作者：何将鹤

项目地址：https://gitcode.com/gh_mirrors/ky/kyuubi

在开源大数据生态系统中，Kyuubi作为一个高性能的JDBC网关服务，与Apache Spark的集成是其核心功能之一。随着Apache Spark 4.0.0预览版的即将发布，Kyuubi项目团队面临了与Spark主分支的兼容性挑战。本文将深入探讨这一技术适配过程的关键问题和解决方案。

兼容性问题背景

Kyuubi项目通过每日构建测试来确保与Spark主分支的兼容性。近期测试失败主要源于两个关键的技术变更：

Jakarta EE与Java EE的命名空间迁移：Spark 4.0.0开始采用Jakarta命名空间替代原有的javax命名空间，这影响了Servlet API等相关组件。
ANTLR版本升级：Spark 4.0.0将ANTLR运行时版本从4.9.3升级到了4.13.1，导致了语法解析器的兼容性问题。

主要技术挑战

1. Servlet API命名空间冲突

在Kyuubi的Spark SQL引擎模块中，存在大量使用javax.servlet.http.HttpServletRequest等类的代码。当与采用jakarta命名空间的新版Spark一起编译时，出现了类型不匹配的编译错误。这种命名空间的变更影响范围广泛，涉及：

WebUI页面渲染
HTTP请求处理
会话管理

2. ANTLR版本不兼容

Spark SQL的语法解析器依赖于ANTLR工具，版本升级导致了以下问题：

代码生成器版本(4.13.1)与运行时版本(4.9.3)不匹配
ATN(增强转移网络)的序列化格式变更，无法向后兼容

3. 多版本兼容性要求

Kyuubi需要同时支持多个Spark版本，这使得简单的命名空间替换方案不可行，因为：

旧版本Spark仍依赖javax命名空间
新版本Spark强制要求jakarta命名空间
相关类的API签名可能发生变化

解决方案与实现

1. 依赖版本对齐

首先确保构建配置中相关依赖版本与Spark主分支一致：

<!-- 添加jakarta.servlet-api依赖 -->
<jakarta.servlet-api.version>5.0.0</jakarta.servlet-api.version>

<!-- 对齐ANTLR版本 -->
<antlr4.version>4.13.1</antlr4.version>

2. 引入Shim层设计

为解决命名空间冲突问题，采用了Shim层设计模式：

抽象接口定义：创建与命名空间无关的接口
运行时动态绑定：通过反射机制在运行时加载正确的实现类
代理模式：将实际调用委托给底层具体实现

这种设计使得核心业务逻辑可以保持稳定，而将兼容性问题隔离在适配层。

3. 模块化适配策略

针对不同模块采取不同的适配策略：

Spark Lineage扩展模块：直接更新依赖版本即可解决
Spark SQL引擎模块：需要更复杂的Shim层实现
WebUI相关组件：重构页面渲染逻辑以适应新的API

实施效果

经过系列适配工作后：

每日构建测试全部通过，验证了与Spark主分支的兼容性
保持了向后兼容性，不影响现有Spark版本的支持
为即将到来的Spark 4.0.0正式版做好了准备

经验总结

前瞻性测试：持续集成中对主分支的每日测试能及早发现问题
分层设计：良好的架构设计能够隔离底层变化的影响
动态适配：运行时决策机制是处理多版本兼容的有效手段
社区协作：关注上游项目的变化趋势有助于提前规划适配工作

这次兼容性适配不仅解决了当前的技术问题，也为Kyuubi项目未来的可维护性和扩展性奠定了更好的基础。随着Spark 4.0.0的正式发布，Kyuubi用户将能够无缝体验到最新Spark版本带来的性能改进和功能增强。

项目地址：https://gitcode.com/gh_mirrors/ky/kyuubi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。