Polars读取带时区的Pandas Parquet文件问题分析

2025-05-04 00:43:44作者：傅爽业Veleda

在数据处理领域，Polars和Pandas都是广泛使用的Python库。最近，Polars 1.28.1版本中出现了一个关于读取带时区信息的Pandas Parquet文件的兼容性问题，这可能会影响许多数据工程师的工作流程。

问题现象

当使用Polars读取由Pandas生成的包含时区感知时间戳的Parquet文件时，会出现数据类型不匹配的错误。具体表现为：

使用Pandas创建包含时区时间戳的DataFrame并保存为Parquet文件
使用Polars读取该文件时，会抛出SchemaError异常
错误信息显示Polars期望的是"+01:00"格式的时区，但实际读取到的是"Etc/GMT-1"格式

有趣的是，如果使用pl.from_pandas()直接转换Pandas DataFrame，则可以正常工作，这表明问题出在Parquet文件的读取环节而非数据类型转换本身。

技术背景

Parquet作为一种列式存储格式，对时间戳类型有明确的规范。Pandas和Polars在处理时区信息时采用了不同的策略：

Pandas倾向于使用IANA时区标识符（如"Etc/GMT-1"）
Polars更倾向于使用UTC偏移量表示法（如"+01:00"）

这种差异在Polars 1.27.1版本中能够被正确处理，但在1.28.1版本中出现了兼容性问题，表明相关解析逻辑可能发生了变化。

影响范围

这个问题主要影响以下场景：

跨团队协作时，使用Pandas生成但由Polars消费的Parquet文件
历史数据处理流程中已存在的Pandas生成的Parquet文件
需要精确时区信息的应用场景，如金融交易记录、跨国业务数据等

临时解决方案

对于受影响的用户，可以考虑以下临时解决方案：

使用pl.from_pandas()替代直接读取Parquet文件（如果数据量不大）
在Pandas端保存时强制转换为UTC时间，消除时区差异
暂时降级到Polars 1.27.1版本

最佳实践建议

为避免类似问题，建议：

在团队内部统一时间戳的时区表示规范
对于关键数据处理流程，进行充分的跨版本测试
考虑在数据管道中加入时区标准化步骤
重要数据保存时同时记录UTC时间和原始时区信息

这个问题凸显了数据处理生态系统中不同库之间兼容性的重要性，也提醒我们在升级数据处理工具链时需要谨慎测试。

polars

Extremely fast Query Engine for DataFrames, written in Rust

项目地址：https://gitcode.com/GitHub_Trending/po/polars

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271