Polars中分区写入Parquet文件时排除分区列的技术解析

2025-05-04 18:43:43作者：薛曦旖Francesca

Extremely fast Query Engine for DataFrames, written in Rust

项目地址：https://gitcode.com/GitHub_Trending/po/polars

在数据工程领域，Polars作为一个高性能的Rust实现的数据处理框架，在处理大规模数据时表现出色。本文将深入探讨Polars在写入分区Parquet文件时的一个实用功能改进——如何排除分区列以避免数据冗余。

分区写入的背景

当使用Polars的write_parquet方法配合partition_by参数时，框架会按照Hive分区风格组织输出文件。例如，指定partition_by=["col_1", "col_2"]会生成类似/col_1=value/col_2=value/000000.parquet的目录结构。

传统实现中，分区列会同时出现在两个地方：

作为目录路径的一部分（如col_1=value）
作为Parquet文件内部的列数据

这种双重存储造成了数据冗余，特别是当使用BigQuery等工具读取这些分区数据时，可能会遇到兼容性问题。

技术解决方案

Polars通过引入PartitionByKey结构和include_key参数解决了这个问题。开发者现在可以精确控制分区列是否包含在输出文件中：

lf.sink_parquet(
    PartitionByKey(
        path="{key[0].name}={key[0].value}/{key[1].name}={key[1].value}/0000.parquet",
        by=["col_1", "col_2"],
        include_key=False
    ), 
    mkdir=True
)

当include_key=False时：

分区列仅出现在目录路径中
生成的Parquet文件不包含这些列
读取时仍能正确重建分区结构

实现原理

这一改进背后的技术原理值得关注：

路径模板机制：使用{key[0].name}和{key[0].value}等占位符动态生成路径，保持灵活性
列过滤：在写入Parquet前，根据include_key设置过滤掉分区列
元数据保留：虽然不存储分区列数据，但通过路径保留了完整的模式信息

实际应用价值

这一功能优化带来了多重好处：

存储效率：消除了分区列的重复存储，节省空间
兼容性：更好地适配BigQuery等工具的Hive分区读取要求
性能优化：减少I/O和序列化开销
数据一致性：避免同一列在文件和路径中可能出现的值不一致问题

总结

Polars的这一改进展示了框架对实际工程需求的快速响应能力。通过精细控制分区列的存储位置，开发者现在可以更高效地构建数据管道，特别是在需要与云数据平台集成的场景下。这种对细节的关注正是Polars在数据处理领域获得青睐的原因之一。

对于需要处理分区数据的开发者，建议评估是否需要在Parquet文件中包含分区列，根据下游系统的要求选择合适的配置，以达到最优的数据处理效率。

Extremely fast Query Engine for DataFrames, written in Rust

项目地址：https://gitcode.com/GitHub_Trending/po/polars

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库