Apache DataFusion SQL解析器对深层结构字段访问行为的变更分析

2025-05-31 02:47:14作者：史锋燃Gardner

Apache DataFusion项目在SQLParser从0.53版本升级到0.54版本后，对深层嵌套结构字段的访问方式做出了行为变更。这一变更影响了使用方括号[]进行结构字段访问的SQL查询语句的解析逻辑。

背景介绍

在DataFusion中处理包含嵌套结构的列时，开发者通常使用两种语法来访问深层字段：

点号表示法：table_alias.struct_field.substruct.substruct
方括号表示法：table_alias.struct_field['substruct']['substruct']

这两种语法在SQLParser 0.53版本中都能正常工作，但在0.54版本中，方括号表示法在多表JOIN查询场景下出现了行为变化。

行为变更详情

在0.53版本中，以下JOIN查询可以正常执行：

SELECT * 
FROM
    (meta_asset_featurization AS asset_meta
    INNER JOIN meta_asset_summary_metrics AS asset_metrics ON (
        asset_meta.struct_field['substruct']['substruct'] = asset_metrics.struct_field['substruct']['substruct']
    ))

但在0.54版本中，同样的查询会解析失败。新版本中的sql_compound_field_access_to_expr函数将方括号表示法中的根部分（如asset_meta）错误地解释为列名而非表别名。

技术原理分析

这一变更源于SQLParser对结构字段访问表达式的处理逻辑调整。在0.54版本中：

对于点号表示法，解析器能正确识别表别名和结构字段的层级关系
对于方括号表示法，解析器在处理JOIN条件时，错误地将表别名视为列名的一部分

值得注意的是，在单表查询场景下，两种表示法都能正常工作：

-- 两种表示法在单表查询中都有效
SELECT col['substruct']['substruct'] FROM table;
SELECT col.substruct.substruct FROM table;

解决方案与建议

目前官方推荐的解决方案是统一使用点号表示法：

SELECT * 
FROM
    (meta_asset_featurization AS asset_meta
    INNER JOIN meta_asset_summary_metrics AS asset_metrics ON (
        asset_meta.struct_field.substruct.substruct = asset_metrics.struct_field.substruct.substruct
    ))

对于开发者而言，应当注意：