Apache Arrow-RS项目中的Parquet原始重复字段读取问题解析

2025-06-28 17:58:53作者：邬祺芯Juliet

Official Rust implementation of Apache Arrow

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-rs

在Apache Arrow-RS项目中，发现了一个关于Parquet文件读取的重要技术问题。这个问题涉及到Parquet格式规范中一个特殊但合法的字段定义方式——原始类型的REPEATED字段（未包含在LIST注解组中）的读取处理。

问题背景

Parquet格式规范中明确说明：一个REPEATED字段如果既不被LIST或MAP注解的组包含，也没有被LIST或MAP直接注解，那么它应该被解释为一个必需的元素列表，其中元素类型就是字段本身的类型。然而，在Arrow-RS项目的记录读取器（非Arrow读取器）实现中，这类字段没有被正确识别为列表类型，导致数据读取错误。

技术细节分析

这种REPEATED字段的特殊性在于：

它不使用标准的LIST注解结构（即不遵循三层列表编码）
它直接对原始类型（如int32、string等）应用REPEATED修饰符
根据Parquet Thrift定义，REPEATED表示该字段可以包含0个或多个值

在实际测试中，当读取包含这种结构的Parquet文件时，Arrow-RS的记录读取器未能将其正确解析为列表形式，而是将其作为单个值处理，导致数据丢失或格式错误。

影响范围

这个问题主要影响以下场景：

使用非标准方式写入的Parquet文件（如某些旧版parquet-mr生成的文件）
使用Arrow-RS记录读取器（非Arrow读取器）处理这些文件的场景
需要向后兼容处理各种Parquet文件格式的应用

解决方案与验证

通过修复记录读取器的实现，使其能够正确识别这种REPEATED字段结构，可以解决这个问题。修复后的读取器能够正确输出预期的列表形式数据，如：

将连续的REPEATED值聚合为列表
正确处理空列表情况
保持与规范一致的数据结构

值得注意的是，虽然这种格式在规范中是合法的，但不同实现对其支持程度不一。例如：

旧版parquet-tools可以正确读取
新版parquet-cli（基于parquet-mr）则无法识别
PyArrow能够正确处理并转换为Arrow的列表类型

最佳实践建议

对于开发者而言，在处理Parquet文件时应注意：

优先使用标准的三层列表编码（LIST注解）以确保最大兼容性
如果需要处理历史数据，应确保读取器实现支持这种REPEATED字段变体
在跨平台数据交换时，进行充分的格式兼容性测试

这个问题提醒我们，在处理复杂数据格式时，需要全面理解规范的各种边缘情况，并在实现中做好兼容性处理。

Official Rust implementation of Apache Arrow

项目地址：https://gitcode.com/gh_mirrors/arr/arrow-rs

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。