orjson库处理空NumPy对象数组时的序列化问题解析

2025-06-01 15:41:27作者：董宙帆

在Python生态系统中，orjson作为一款高性能JSON序列化库，因其出色的性能表现而广受欢迎。然而，在实际使用过程中，开发者可能会遇到一些特殊数据类型的序列化限制。本文将深入探讨orjson在处理空NumPy对象数组时的序列化问题及其解决方案。

问题现象

当尝试使用orjson序列化一个空的NumPy对象数组（即np.array([], dtype=object)）时，库会抛出TypeError: Type is not JSON serializable: numpy.ndarray异常。这与许多开发者期望的行为存在差异，特别是当处理来自Parquet等格式的嵌套数据结构时，这种情况尤为常见。

技术背景

NumPy的object类型数组是一种特殊的数据结构，它允许数组中的每个元素可以是任意Python对象。这种灵活性带来了序列化上的挑战，因为JSON规范本身只支持有限的数据类型（如字符串、数字、布尔值、数组和对象）。

orjson出于性能和安全考虑，默认不支持直接序列化NumPy数组。这与标准库的json模块或其他JSON序列化库的行为有所不同，后者通常可以通过自定义编码器来处理这类情况。

解决方案分析

针对这一问题，开发者可以采用递归转换策略将NumPy数组转换为Python原生数据类型。核心思路是：

识别输入数据的类型
对NumPy数组调用tolist()方法进行基础转换
递归处理转换后的数据结构中的每个元素

这种方法的优势在于：

保持了数据的完整性和结构
可以处理嵌套的复杂数据结构
不依赖特定的序列化库实现

实现建议

在实际项目中，我们可以将转换逻辑封装为独立函数，例如：

def convert_for_serialization(data):
    """递归转换数据结构为可序列化格式"""
    if isinstance(data, np.ndarray):
        return convert_for_serialization(data.tolist())
    elif isinstance(data, (list, tuple)):
        return [convert_for_serialization(item) for item in data]
    elif isinstance(data, dict):
        return {k: convert_for_serialization(v) for k, v in data.items()}
    return data