Apache Arrow项目中PyArrow与Pandas字符串类型转换问题解析

2025-05-15 14:31:14作者：裘旻烁

在数据处理领域，Apache Arrow和Pandas是两个非常重要的工具。Arrow提供了高效的内存数据结构，而Pandas则是Python数据分析的事实标准库。两者之间的数据转换是常见操作，但在特定配置下可能会出现兼容性问题。

问题现象

当用户在使用PyArrow的to_pandas()方法将Arrow表转换为Pandas DataFrame时，如果同时设置了Pandas的配置选项future.infer_string为True，程序会抛出异常。具体错误信息表明StringDtype.__init__()接收到了一个意外的关键字参数na_value。

技术背景

这个问题源于Arrow和Pandas在字符串类型处理上的版本兼容性问题。Pandas 2.2版本引入了future.infer_string选项，旨在改进字符串类型的推断机制。然而，Arrow 19.0.0版本中的转换逻辑假设用户只有在使用Pandas 2.3+版本时才会启用此选项。

根本原因

在Arrow 19.0.0的代码实现中，当检测到future.infer_string选项启用时，会尝试使用Pandas的StringDtype类型，并传递na_value=np.nan参数。然而，这个参数在Pandas 2.2版本的StringDtype实现中并不存在，它是在Pandas 2.3版本中才添加的。

解决方案

针对这个问题，开发团队提出了几种解决方案：

版本降级：暂时使用Arrow 18.1.0或更早版本，这些版本没有引入对future.infer_string选项的支持，因此不会触发此问题。
升级Pandas：等待Pandas 2.3版本发布，该版本将支持na_value参数，完全兼容Arrow 19.0.0及更高版本。
代码修复：Arrow开发团队已经在代码中添加了版本检查逻辑，确保只有在Pandas 2.3+版本时才会启用相关功能。这个修复将包含在Arrow 19.0.1版本中。