Polars库处理Excel中列表类型数据的注意事项

2025-05-04 07:49:02作者：邓越浪Henry

在数据处理过程中，我们经常需要将DataFrame数据保存到Excel文件中，然后再读取回来继续处理。当使用Polars库处理包含列表类型(List)的数据时，会遇到一些特殊的情况需要特别注意。

Polars是一个高性能的DataFrame库，它支持丰富的数据类型，包括列表类型(List)。然而，Excel作为一种通用的电子表格工具，本身并不原生支持列表类型的数据结构。这就导致在Polars和Excel之间进行数据交换时，会出现一些数据类型转换的问题。

问题现象

当我们将一个包含列表类型列的DataFrame写入Excel文件后，再读取回来时，列表类型的数据会被转换为字符串形式。例如：

原始数据：

["test", "test", "test"]

写入Excel后再读取，会变成：

"['test', 'test', 'test']"

如果尝试使用schema_overrides参数强制指定列类型为List(String)，结果会更奇怪：

["['test', 'test', 'test']"]

原因分析

这种现象的根本原因在于Excel本身不支持列表这种复杂的数据类型。当Polars将数据写入Excel时，只能将列表转换为字符串形式保存。读取时，Excel返回的也是字符串数据，而不是原始的列表结构。

schema_overrides参数的作用是告诉Polars"这个列应该是列表类型"，但Polars并不会自动解析字符串内容。它只是简单地将整个字符串作为一个元素放入列表中。

解决方案

虽然不推荐在Polars和Excel之间频繁交换列表类型数据，但如果确实需要这样做，可以考虑以下方法：

使用JSON解析方法：

df = pl.read_excel("data.xlsx").with_columns(
    pl.col("foo").str.replace_all("'", '"').str.json_decode()
)

这种方法先将字符串中的单引号替换为双引号，使其符合JSON格式，然后进行JSON解析。

使用literal_eval方法：

from ast import literal_eval

df = pl.read_excel("data.xlsx").with_columns(
    pl.col("foo").map_elements(
        literal_eval,
        return_dtype=pl.List(pl.String),
    )
)

这种方法直接使用Python的ast.literal_eval函数来解析字符串形式的列表。

最佳实践建议

尽量避免在Polars和Excel之间传递复杂数据类型，如列表、字典等
如果必须传递列表数据，可以考虑先将列表展开为多行或多列
对于需要保留数据结构的情况，建议使用Parquet等支持复杂类型的文件格式
在必须使用Excel的情况下，明确记录数据转换的逻辑，确保后续处理的正确性

polars

Extremely fast Query Engine for DataFrames, written in Rust

项目地址：https://gitcode.com/GitHub_Trending/po/polars

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677

Polars库处理Excel中列表类型数据的注意事项

问题现象

原因分析

解决方案

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

Polars库处理Excel中列表类型数据的注意事项

问题现象

原因分析

解决方案

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选