Arrow DataFusion 内存管理优化：为 MemoryConsumer 引入唯一标识符

2025-05-31 22:40:47作者：裴锟轩Denise

背景与问题分析

在 Apache Arrow DataFusion 项目中，内存管理是一个核心挑战，特别是在内存受限的环境中。当前系统的 MemoryConsumer 机制存在一个关键限制：无法有效区分相同类型的连续操作符实例。这导致在内存分配和跟踪方面只能进行非常基础的管理。

现有实现中，MemoryConsumer 的默认相等性比较仅基于名称(name)和是否可溢出(spillable)两个字段。当同一分区上运行多个相同类型的操作符时，这种比较方式无法区分它们，使得精细化的内存控制变得困难。

现有机制的局限性

操作符识别不足：三个连续的同类型操作符会被视为相同的 MemoryConsumer
内存预留跟踪困难：MemoryReservation 在创建、分割或合并后难以追踪其生命周期
统计粒度粗糙：目前只能在 register() 和 unregister() 函数中统计操作符数量

这些问题严重限制了在内存受限环境下实现精确内存分配的可能性。

解决方案设计

全局唯一标识符方案

为 MemoryConsumer 引入全局唯一 ID 是解决上述问题的有效方法。具体实现建议：

消费者级别ID：使用原子计数器为每个 MemoryConsumer 分配唯一ID

fn new_consumer_id() -> u64 {
    static ID: AtomicU64 = AtomicU64::new(0);
    ID.fetch_add(1, atomic::Ordering::Relaxed)
}

预留级别ID：为 MemoryReservation 引入消费者内部的唯一ID

current_reservation: Arc::new(AtomicU64::new(0)),

pub fn new_reservation_id(&self) -> u64 {
    self.current_reservation.fetch_add(1, atomic::Ordering::Relaxed)
}

实现考量

经过深入分析，发现 MemoryReservation 的分割操作(split_off)会创建具有特定大小的新预留，这使得基于预留级别的内存跟踪变得复杂。因此，更实用的方案是：

专注于 MemoryConsumer 级别的ID：提供足够的内存管理粒度
简化实现：避免过度设计预留级别的跟踪机制
非侵入式修改：保持现有API的兼容性

技术优势

精确内存跟踪：能够区分同一分区上的相同类型操作符
更好的内存控制：为内存池和公平调度提供基础
调试能力增强：通过唯一ID可以追踪内存使用情况
性能影响小：原子计数器的开销可以忽略不计

实施建议

首先为 MemoryConsumer trait 添加 id() 方法
实现全局ID生成机制
在 MemoryConsumer 创建时自动分配ID
逐步完善基于ID的内存监控工具

这种改进将为 DataFusion 的内存管理提供更强大的基础，特别是在处理复杂查询和内存受限环境时，能够实现更精细的资源控制和更公平的调度策略。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

986