探秘Apache Gluten（Incubating）：提升Spark SQL效率的利器

2024-08-10 15:00:12作者：翟江哲Frasier

Gluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.

项目地址：https://gitcode.com/gh_mirrors/glu/gluten

Apache Gluten是一个创新项目，正在Apache孵化器中孵化，旨在通过将JVM上的SQL引擎执行转移到原生引擎来提升大数据处理的速度。如果你是追求极致性能的Spark SQL用户，那么Gluten就是你一直在寻找的那个"胶水"，它能无缝集成Spark和高性能原生库，最大化数据处理效率。

一、项目简介

在大数据世界中，Apache Spark以其稳定性和可扩展性赢得了广泛的赞誉，尤其适合处理大规模数据集。然而，针对其性能优化的挑战日益凸显。尽管引入了如Whole Stage Code Generation等优化，单个操作器的性能提升已趋平缓。另一方面，像Clickhouse、Arrow和Velox这样的原生库，凭借其原生实现、列式存储和向量化处理，展示了超越JVM SQL引擎的强大性能，但它们仅支持单节点执行。

Apache Gluten由此应运而生，其核心目标是在不改变Spark SQL接口的情况下，利用Spark的分布式控制流，结合高性能原生库，通过Substrait计划转换和JNI接口实现计算密集型任务的下推，从而在保持Spark易用性的同时，大幅提升查询性能。

二、技术剖析

Gluten的设计原则是在尽可能保留Spark现有逻辑的基础上，把计算密集的部分交给原生代码处理。这一过程涉及以下关键步骤：

将Spark的物理执行计划转化为Substrait计划。
使用JNI调用传递Substrait计划到原生层。
在原生侧构建并执行原生运算符链。
利用Columnar Batch返回结果给Spark，使用Spark的Columnar API进行处理。

目前，Gluten支持Clickhouse和Velox作为后端，后者是由Meta开发的数据处理库，提供了高性能和可扩展的组件。未来，项目还计划支持更多性能优化工具。

三、应用场景

Gluten适用于任何期望提升Spark SQL处理速度的环境，无需更改现有的DataFrame API或SQL查询语法，只需要正确配置即可使用。例如，在数据仓库查询、实时分析、大规模ETL流程等场景中，Gluten都可以显著提高数据处理速度，减少等待时间。

四、项目亮点

无缝集成：Gluten与Spark完全兼容，只需简单的配置就能启用。
高性能：利用原生库的特性，如列式存储、向量化处理，大幅提升查询速度。
灵活扩展：易于切换不同的原生后端，并且支持更多的性能工具接入。
智能容错：具备回退机制，对不支持的操作，可以自动转回Spark原生执行。
监控优化：提供详细的度量指标，帮助识别性能瓶颈和错误。

五、如何开始

你可以选择使用预发布的jar包直接启动Spark Shell，或者从源码编译并自定义配置。具体操作指南，请参考项目文档。

六、加入社区

现在就加入Apache Gluten社区，一起探索大数据处理的新边界！无论是技术讨论、问题报告还是贡献代码，我们都非常欢迎你的参与。

让我们共同见证Gluten为大数据处理带来的革命性突破！

Gluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.

项目地址：https://gitcode.com/gh_mirrors/glu/gluten

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优