DataFusion中数组类型聚合操作的内存管理问题分析

2025-05-31 08:52:25作者：卓艾滢Kingsley

问题背景

在Apache DataFusion项目中，当使用聚合函数处理数组类型数据时，发现了一个关键的内存管理问题。具体表现为：在相同数据量下，对字符串数组进行聚合操作时，内存消耗会异常增高，导致查询失败；而对普通字符串进行相同操作时，则表现正常。

以一个简单的体育比赛数据为例，假设有一个包含10万行记录的表，每行包含：

当执行如下聚合查询时：

SELECT team, first_value(game_id order by score) AS game_with_max_score
FROM games
GROUP BY team;

即使设置了10GB的内存限制，查询也会因资源耗尽而失败。然而，如果将game_id从字符串数组改为普通字符串，同样的查询在仅10MB内存限制下就能成功执行。

问题的核心在于DataFusion中first_value聚合函数的实现方式。该函数使用FirstValueAccumulator来保存每个分组的第一个值，而这个值是以ScalarValue的形式存储的。

对于不同类型的数据，ScalarValue的创建方式不同：

这种差异导致了内存管理上的重大区别：

这个问题会产生两个主要影响：

修复方案的核心思想是：对于数组类型，应该创建数据的独立副本，而不是保留原始数组的引用。这样可以确保：

这个问题揭示了在实现复杂数据类型支持时需要考虑的几个重要方面：

DataFusion中的这个内存管理问题展示了在处理复杂数据类型时可能遇到的陷阱。通过正确的内存管理策略，可以确保系统在处理数组等复杂类型时，既能保持功能正确性，又能维持合理的内存使用效率。这对于构建高性能的数据处理系统至关重要。

登录后查看全文