Apache DataFusion 中分区列与数据列混合过滤的缺陷分析

2025-05-31 10:59:55作者：温艾琴Wonderful

Apache DataFusion 是一个高性能的查询引擎，近期发现了一个关于分区表查询过滤的重要缺陷。该缺陷会导致当查询条件同时涉及分区列和数据文件列时，过滤条件无法正确应用，从而返回错误的查询结果。

问题现象

在 DataFusion 中，当用户创建了一个分区表并执行包含分区列和数据列比较的查询时，如果开启了 pushdown_filters 参数，查询结果会包含不符合条件的数据行。

例如，假设有一个分区表 test，按 part 列分区，包含 val 数据列。执行查询 SELECT * FROM test WHERE part != val 时，本应只返回 part 和 val 不相等的行，但实际上会返回所有行。

这个问题源于 DataFusion 的查询优化逻辑。当启用 pushdown_filters 时，系统会尝试将过滤条件下推到数据源层执行，以提高查询性能。然而，对于同时涉及分区列和数据列的过滤条件，当前的实现存在缺陷：

这种缺陷会导致以下严重后果：

修复方案相对直接：对于任何同时引用分区列和数据列的过滤条件，需要将其标记为"不精确"(Inexact)，这样查询引擎就不会尝试将其下推到数据源层执行，而是会在内存中进行完整的过滤操作。

对于使用 DataFusion 分区表的用户，建议：

这个案例展示了查询优化中一个有趣的边界情况，提醒我们在设计查询优化策略时需要考虑各种复杂的条件组合。DataFusion 社区已经快速响应并提出了修复方案，体现了开源项目的敏捷性和可靠性。

登录后查看全文