Gluten项目v1.4.0-rc1版本技术解析与核心特性解读

2025-07-02 05:45:03作者：董灵辛Dennis

Gluten作为Apache孵化器项目，是一个专注于大数据查询加速的开源引擎。它通过将Spark SQL查询计划转换为本地执行代码，利用现代CPU架构和向量化执行技术，显著提升了大数据处理性能。最新发布的v1.4.0-rc1版本带来了多项重要改进和功能增强，本文将深入解析这些技术亮点。

核心技术改进

配置系统重构

本次版本对配置系统进行了全面重构，引入了ConfigEntry机制来统一管理所有配置项。这一改进使得配置定义更加规范，避免了配置项散落在代码各处的问题。新系统将配置按功能模块划分，每个模块负责管理自己的配置项，提高了代码的可维护性和可扩展性。

内存管理优化

内存管理方面，v1.4.0-rc1版本引入了全局堆外内存管理API，允许Spark更精确地控制和管理Gluten使用的堆外内存。这一改进特别针对广播交换等内存密集型操作，通过统一的内存管理接口，避免了内存泄漏和过度分配问题。

执行引擎增强

执行引擎方面，Velox后端获得了多项重要更新：

支持了CollectLimit操作符，优化了结果集限制场景下的性能
改进了HashAggregate操作，现在能够正确传播ignoreNullKeys属性
增强了BNLJ（块嵌套循环连接）功能，支持无条件的全外连接

查询功能扩展

数据类型支持

新版本在数据类型支持方面取得了显著进展：

完善了Decimal与Timestamp类型间的转换处理
增加了Binary到String的转换支持
优化了复杂类型（如Array、Map）的处理逻辑

函数支持增强

函数库方面新增了多项重要功能：

支持了make_date函数，增强了日期处理能力
实现了array_append函数，完善了数组操作
优化了from_json和json_array_length等JSON处理函数

存储格式兼容性

文件格式支持

v1.4.0-rc1版本显著提升了与各种文件格式的兼容性：

支持加密Parquet文件的回退扫描机制
改进了Hive分桶表的写入兼容性
增强了Delta Lake格式的支持，包括删除向量读取功能

Iceberg集成

对Apache Iceberg的支持是本版本的重点之一：

实现了Iceberg等值删除文件的读取支持
增加了位置删除功能
完善了Merge-on-Read表的测试框架

性能优化

查询执行优化

性能方面，本版本包含多项关键优化：

改进了PartialProject规则，减少不必要的投影操作
优化了ColumnarBatch.select操作，避免不必要的向量扁平化
增强了本地SSD缓存，调整了默认加载量子大小

资源管理

资源管理方面引入了动态阶段资源调整功能：

支持根据工作负载动态调整阶段资源分配
提供了细粒度的内存回收控制
优化了shuffle过程中的内存使用

稳定性与可靠性

错误处理与回退机制

新版本增强了错误处理和回退机制：

改进了原生计划验证逻辑
提供了更全面的回退原因记录
优化了类型转换的验证过程

测试覆盖

测试方面取得了显著进展：

扩展了SQL查询测试套件
增加了对Spark 3.5的测试支持
完善了Iceberg和Hudi的集成测试

开发者体验

构建系统改进

构建系统方面进行了多项优化：

简化了依赖管理
支持在多种环境（包括openEuler）构建
提供了ARM架构的Docker镜像支持

调试工具

新增了多项开发者工具：

开发了将ActionsDAG转储为树状图的工具
增强了日志收集和分析能力
提供了更详细的性能指标

总结

Gluten v1.4.0-rc1版本在功能、性能和稳定性方面都取得了显著进步。新版本不仅扩展了SQL功能覆盖，还通过精细化的资源管理和优化算法提升了执行效率。特别值得注意的是对Iceberg和Delta Lake等现代数据格式的深度集成，使得Gluten能够更好地适应云原生数据湖场景。这些改进共同推动了Gluten作为Spark性能加速解决方案的成熟度，为大数据处理提供了更高效的选择。

gluten

Gluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.

项目地址：https://gitcode.com/gh_mirrors/glu/gluten

登录后查看全文