Apache DataFusion 优化：禁用溢出文件重新验证提升性能

2025-05-31 06:53:27作者：劳婵绚Shirley

Apache DataFusion 是一个用 Rust 编写的现代查询引擎，它提供了高性能的数据处理能力。在最新版本中，社区发现了一个可以显著提升性能的优化点——禁用溢出文件(Spill Files)的重新验证过程。

背景与问题

DataFusion 在处理大规模数据时，当内存不足时会使用磁盘溢出机制，将中间结果以 Arrow IPC 格式写入磁盘文件。当前实现中，在从磁盘重新读取这些溢出文件时，系统会执行完整的数据验证流程，包括检查字符串是否为有效 UTF-8 编码等。

这种验证虽然保证了数据完整性，但在已知数据来源可靠的情况下（即由 DataFusion 自身生成的文件），这种验证就成为了不必要的性能开销。Arrow 项目的最新进展表明，禁用这种验证可以带来显著的性能提升。

DataFusion 的溢出机制核心代码位于物理执行计划的 spill 模块中。当执行内存密集型操作（如排序、哈希连接等）时，系统会将中间结果序列化为 Arrow IPC 格式并写入磁盘。读取时，系统会反序列化这些数据并重新构建为内存中的数据结构。

验证过程主要包括：

通过利用 Arrow 最新版本提供的功能，我们可以安全地禁用这些验证步骤，因为：

基准测试显示，在典型的 TPCH 查询场景中，这一优化可以带来 1.06x 到 1.14x 的性能提升，特别是在内存受限导致频繁溢出的情况下，性能提升更为明显。

为了确保这一优化的安全性，开发者需要考虑：

这一优化是 DataFusion 持续性能改进计划的一部分，后续还将探索更多减少序列化/反序列化开销的方法，如使用更高效的二进制格式或零拷贝技术。

登录后查看全文