DataFusion Comet 0.7.0版本技术解析与核心改进

2025-07-08 22:03:03作者：贡沫苏Truman

datafusion-comet

Apache DataFusion Comet Spark Accelerator

项目地址：https://gitcode.com/gh_mirrors/da/datafusion-comet

DataFusion Comet作为Apache生态系统中一个高性能的查询执行引擎，专为Spark SQL设计，通过原生代码执行提供显著的性能提升。该项目基于Rust语言开发，充分利用了现代硬件特性，同时保持了与Spark生态系统的无缝集成。

性能优化与内存管理改进

0.7.0版本在内存管理方面做出了多项重要改进。首先，通过重构CometShuffleMemoryAllocator逻辑，简化了内存分配机制，移除了冗余配置项，使得内存使用更加高效。其次，PartitionBuffers不再拥有独立的MemoryConsumer，这一改变减少了内存开销并提高了整体稳定性。

在原生shuffle实现方面，该版本成功将内存开销降低了50%，这对于处理大规模数据集尤为重要。同时，修复了spilled_bytes指标计算问题，并减少了shuffle spill文件数量，这些改进共同提升了shuffle阶段的可靠性和性能。

实验性功能增强

本版本显著增强了实验性原生扫描功能。针对native_datafusion和native_iceberg_compat两种扫描方式，开发团队进行了多项修复和改进：

简化了parquet_support.rs中的类型转换逻辑，使代码更加清晰
修复了单元测试失败问题，提高了稳定性
从ParquetFileMetrics和FileStreamMetrics中提取CometNativeScan指标
增加了对远程HDFS的支持，扩展了数据源兼容性

这些改进为将来将实验性功能转为正式功能奠定了基础。

函数支持与表达式扩展

0.7.0版本在SQL函数支持方面取得了进展：

新增IntegralDivide函数，提供整数除法运算能力
完整支持decimal到decimal的转换操作
增加了rpad字符串函数
实现了array_compact数组函数
加强了除法运算的溢出检查机制

这些新增函数进一步提升了与Spark SQL的兼容性，使更多现有查询能够直接利用Comet引擎执行。

稳定性与测试改进

开发团队在本版本中加强了测试覆盖率和稳定性：

将实验性原生扫描纳入CometReadBenchmark基准测试
为稳定性计划测试改进了文档说明
修复了Spark 3.5的测试兼容性问题
启用了native_datafusion和native_iceberg_compat的CI检查

这些工作确保了新功能的可靠性和一致性，为生产环境使用提供了更强保障。

依赖项升级

0.7.0版本同步更新了多个关键依赖：

升级至DataFusion 46.0.0正式版
采用Spark 3.5.4作为基础版本
更新protobuf至3.25.5
升级guava到33.2.1-jre

这些升级带来了上游项目的最新改进和安全修复，同时保持了良好的向后兼容性。

总结

DataFusion Comet 0.7.0版本在性能、功能和稳定性方面都取得了显著进步。特别是内存管理的优化和实验性原生扫描功能的增强，为后续版本的发展奠定了坚实基础。随着函数支持的不断完善和测试覆盖率的提高，该项目正逐步成为Spark生态系统中一个成熟的高性能替代执行引擎。

datafusion-comet

Apache DataFusion Comet Spark Accelerator

项目地址：https://gitcode.com/gh_mirrors/da/datafusion-comet

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。