Apache Gluten 1.4.0 版本发布：多引擎统一加速框架的重大升级

2025-07-02 06:04:40作者：董宙帆

Apache Gluten 是一个开源的跨引擎大数据计算加速框架，它能够在 Apache Spark 等计算引擎上无缝集成多种高性能后端（如 Velox 和 ClickHouse），显著提升 SQL 查询性能。Gluten 通过统一的接口层，让用户无需修改现有 Spark 应用代码即可获得接近原生 C++ 引擎的执行效率。

近日，Apache Gluten 社区正式发布了 1.4.0 版本，这是该项目自进入 Apache 孵化器以来的一个重要里程碑。本次更新带来了多项关键改进和新特性，包括对最新 Spark 版本的支持、更多 SQL 函数的实现、查询优化增强以及稳定性提升等。下面我们将深入解析这个版本的核心技术亮点。

核心架构升级

1.4.0 版本在基础架构层面进行了多项重要改进：

首先是对 Spark 3.5.2 的全面支持，同时保持了对 Spark 3.2.2/3.3.1/3.4.4 的兼容性。这种多版本支持能力使得用户可以在不同 Spark 环境中灵活部署 Gluten。特别值得注意的是，Velox 后端代码库已更新至 2025 年 5 月 12 日的版本，带来了最新的性能优化和功能增强。

在内存管理方面，新版本修复了若干未跟踪内存导致的 OOM 问题，并引入了动态调整 Stage 资源配额的创新机制。通过 spark.gluten.auto.adjustStageResource.enabled 配置，系统能够根据查询执行情况智能调整资源分配，这在复杂查询场景下能显著提高集群资源利用率。

查询功能增强

SQL 功能覆盖度是衡量一个 SQL 加速框架成熟度的重要指标。1.4.0 版本新增了对多个关键 Spark 函数的支持：

日期处理函数：完整实现了 date_format 和 make_date 函数，增强了时间序列数据处理能力
JSON 处理：新增 from_json 和 json_array_length 支持，完善了半结构化数据处理能力
字符串处理：增加了 btrim 函数，补齐了字符串处理功能集
数组操作：实现了 array_append 函数，增强了数组数据处理能力
映射操作：新增 map_filter 和 map_concat 支持，完善了复杂类型处理能力

这些新增函数使得 Gluten 能够覆盖更广泛的实际业务场景，减少因功能缺失导致的回退到原生 Spark 执行的情况。

执行引擎优化

在查询执行层面，1.4.0 版本包含多项深度优化：

Join 操作方面，实现了 BNLJ（Block Nested Loop Join）全外连接支持，这对于某些特殊连接场景能够提供更好的性能。同时优化了 HashAggregate 操作，在可能的情况下传播 ignoreNullKeys 属性，减少不必要的空值处理开销。

Shuffle 子系统进行了重要改进，包括 RSS（Remote Shuffle Service）ShuffleReader 的优化和错误修复。与 Celeborn 0.5.4 和 Uniffle 0.9.2 的集成更加稳定，提高了大规模数据混洗的可靠性。

查询计划方面，重构了 RAS（Resource-Aware Scheduling）成本模型，使资源感知调度更加精准。新的成本模型不仅用于 RAS 调度器，也被传统的过渡计划器采用，统一了全局的成本评估逻辑。

生态系统集成

1.4.0 版本加强了对大数据生态系统的集成支持：

在数据湖支持方面，测试框架新增了对 Iceberg 和 Hudi 的验证，确保 Gluten 能够与这些流行的表格式良好协作。特别是实现了 Iceberg 的 MOR（Merge-On-Read）表支持，包括对 equality 删除和 position 删除的处理能力。

对于 Delta Lake，新增了 DeltaOptimizedWriterTransformer 和 DeltaFilterExecTransformer 的下推规则，优化了 Delta 表的写入和读取性能。同时实现了对 Delta 删除向量的读取支持，完善了对 Delta 表更新操作的处理能力。