Astropy项目中表格列属性在Python 3.14下的序列化问题分析

2025-06-12 18:52:58作者：胡易黎Nicole

问题背景

在Astropy项目的表格模块测试过程中，发现了一个关于列属性保存的测试用例在Python 3.14环境下失败的情况。这个问题涉及到表格数据在通过pickle序列化、反序列化以及各种拷贝操作后，列属性的保持情况，特别是数据类型(dtype)的字节序(endianness)信息。

问题现象

测试用例test_info_preserved_pickle_copy_init验证了表格列属性通过多种拷贝类操作后的保存情况。在Python 3.14环境下，测试发现当处理非本地字节序的数组数据时，数据类型信息未能正确保持。具体表现为：期望的dtype('int32')与实际得到的dtype('>i4')不匹配。

根本原因分析

经过深入调查，发现这个问题实际上由两个独立但相关的因素共同导致：

Python 3.14的pickle协议升级：Python 3.14将默认的pickle协议升级到了版本5，这一版本增强了对非本地字节序数据的支持。在之前的版本中，pickle序列化会丢失字节序信息，而现在则能正确保留这些信息。这实际上是一个功能改进，而非缺陷。
ArrayWrapper类的实现问题：Astropy中的ArrayWrapper类在处理自身实例作为输入时，未能正确保持原始数据的字节序信息。当通过ArrayWrapper构造函数传递另一个ArrayWrapper实例时，内部的数据类型信息会被错误地转换为本地字节序。

解决方案

针对上述两个问题，我们采取了以下解决方案：

调整测试预期：由于pickle协议5的行为改变实际上是正确的改进，我们更新了测试用例，使其预期pickle操作能够保持字节序信息。
修复ArrayWrapper类：修改了ArrayWrapper类的构造函数，使其在接收另一个ArrayWrapper实例作为输入时，能够正确保持原始数据的字节序信息。具体实现是通过直接访问输入实例的data属性，而不是简单地将其作为普通数组处理。

def __init__(self, data, copy=True):
    if isinstance(data, ArrayWrapper):
        # 保留字节序信息
        arr = data.data
    else:
        arr = data
    self.data = np.array(arr, copy=copy)