Apache DataFusion 中 ListingTable 统计信息合并的缺陷分析

2025-05-31 00:03:36作者：仰钰奇

问题背景

在 Apache DataFusion 项目中，ListingTable 在处理不同模式(schema)的数据文件时，其统计信息合并机制存在一个潜在缺陷。这个缺陷会影响查询优化器的决策准确性，特别是在处理具有不同列顺序或列组成的文件时。

当前实现中，ListingTable 在合并多个文件的统计信息时，仅根据列的位置(ordinal position)进行合并，而没有考虑列的实际语义。这种简单的按位置合并会导致以下问题：

假设我们有两个数据文件：

当前实现会将文件1的列a统计信息与文件2的列b统计信息合并，因为它们处于相同的位置(第一个位置)。这显然是不正确的，因为实际上应该将相同逻辑列的统计信息合并在一起。

这种统计信息合并错误会影响：

随着项目发展，统计信息正被用于更多关键路径，如确保查询结果的正确性，这使得修复这一问题变得更加紧迫。

解决这一问题需要考虑以下几个方面：

一个可行的方案是重用现有的 SchemaMapper 机制，这样可以保证统计信息处理与实际运行时行为保持一致。

DataFusion 中 ListingTable 的统计信息合并问题是一个典型的模式处理缺陷。随着项目对统计信息依赖的增加，修复这一问题变得尤为重要。通过引入正确的模式映射机制，可以确保统计信息的准确合并，为后续的查询优化提供可靠基础。

登录后查看全文