Apache Arrow DataFusion 中复合字段访问与连接查询的回归问题分析

2025-06-14 12:46:30作者：尤峻淳Whitney

问题背景

在Apache Arrow DataFusion项目的最新版本46中，出现了一个关于复合字段访问和表连接查询的回归问题。这个问题主要影响那些需要连接两个具有相似列结构的表，并且在连接条件中使用复合字段访问（如结构体字段访问）的查询场景。

在DataFusion CLI中，当用户尝试执行包含以下特征的查询时会出现问题：

具体表现为：

这个问题源于DataFusion项目中SQL解析器版本的更新（特别是PR #14255引入的变化）。新版本在解析包含表别名和复合字段访问的连接查询时，对字段引用的解析逻辑发生了变化。

在版本45中，系统能够正确识别如t.column1['r']这样的表达式，其中t是表别名，column1是列名，['r']是结构体字段访问。但在版本46中，解析器在处理这类表达式时出现了偏差，导致无法正确识别表别名。

这个问题主要影响以下使用场景：

该问题已在主分支的最新提交中通过PR #15153得到修复。修复后的版本能够正确处理以下两种形式的查询：

使用表别名的连接查询：select * from t tee join u you on tee.column1['r'] = you.column1['r']
不使用表别名的连接查询：select * from t join u on t.column1['r'] = u.column1['r']

对于遇到此问题的开发者，建议：

这个回归问题提醒我们，在SQL解析器升级时需要特别注意边缘案例的测试覆盖。DataFusion团队通过快速响应和修复，确保了项目的稳定性和向后兼容性。对于使用DataFusion的项目，建议密切关注这类核心组件的更新，并在升级前进行充分的测试验证。

登录后查看全文