Apache Arrow DataFusion中ListingTableConfig模式强制转换不一致问题分析

2025-06-14 19:01:49作者：田桥桑Industrious

在Apache Arrow DataFusion项目中，我们发现了一个关于ListingTableConfig在模式强制转换方面的不一致性问题。这个问题主要出现在处理包含可选字段（如嵌套结构体或额外列）的文件模式时，会导致根据输入文件顺序不同而产生不同的输出模式和结果行。

问题现象

当使用ListingTableConfig注册一个ListingTable时，如果提供的file_schema包含可选字段，比如嵌套结构体或额外列，系统会根据输入文件的顺序产生不同的投影模式和输出行。具体表现为：

当文件按照schema1、schema2、schema3的顺序加载时，输出结果只包含基础字段（body和timestamp_utc）
当文件顺序反过来（schema3、schema2、schema1）时，输出结果会包含所有字段（body、timestamp_utc、query_params和error）

DataFusion的ListingTableConfig是用于配置从多个文件中加载数据的工具。它允许用户指定一个预期的模式（file_schema），并提供了模式推断功能。在理想情况下，无论输入文件的顺序如何，系统都应该能够将所有文件数据强制转换为指定的模式。

经过分析，我们发现问题的核心在于模式强制转换的实现逻辑：

这个问题会影响以下场景：

要解决这个问题，我们需要：

在底层实现上，需要修改SchemaAdapterFactory的逻辑，确保：

这个问题揭示了DataFusion在处理模式演化和可选字段时的一些不足。通过修复这个问题，可以显著提高ListingTable在处理复杂、演化数据集时的可靠性和一致性。对于用户来说，这意味着更可预测的行为和更少的边缘情况需要考虑。

登录后查看全文