DuckDB 1.2.0版本中Parquet读取功能的一个边界条件Bug分析

2025-05-06 22:15:39作者：殷蕙予

在DuckDB数据库系统的1.2.0版本中，当用户尝试同时使用schema映射、filename选项和过滤条件来读取Parquet文件时，系统会出现内部错误导致崩溃。这个Bug虽然看起来是特定条件下的边界情况，但它揭示了DuckDB在复杂查询处理流程中的一些潜在问题。

问题现象

当用户执行以下操作序列时：

首先创建一个包含简单序列的Parquet文件
然后使用read_parquet函数读取该文件，同时指定：
- schema映射（将字段ID映射为列名和类型）
- filename选项（要求返回文件名信息）
- WHERE过滤条件

系统会抛出"Attempted to access index 1 within vector of size 1"的内部错误，随后数据库会进入不可用状态，需要重启才能继续使用。

DuckDB的Parquet读取功能支持多种高级特性：

这些功能在单独使用时都能正常工作，但当它们组合在一起时，系统在处理列索引时出现了不一致。

通过代码分析，我们发现问题的根源在于：

类似的问题也出现在Delta Lake格式文件的读取中，表明这是一个更普遍的逻辑缺陷，而不仅限于基本Parquet读取功能。

修复这个问题的正确方法是确保：

这个Bug影响：

对于用户来说，在等待官方修复的同时可以：

这个案例很好地展示了数据库系统中复杂功能组合时可能出现的边界条件问题，也提醒我们在设计查询执行计划时需要全面考虑各种可能的列操作和转换。

登录后查看全文