Pydantic中联合类型字段序列化顺序引发的差异问题分析

2025-05-09 14:31:07作者：滑思眉Philip

在Python生态中，Pydantic作为一款强大的数据验证和设置管理库，其V2版本在类型系统和序列化方面做了大量改进。然而，近期发现了一个关于联合类型字段声明顺序影响序列化结果的特殊案例，值得开发者注意。

问题现象

当定义一个包含Path和list[Path]联合类型的字段时，不同的声明顺序会导致不同的序列化结果。具体表现为：

class A(BaseModel):
    a: Path | list[Path]  # 声明顺序：Path在前

class B(BaseModel):
    a: list[Path] | Path  # 声明顺序：list[Path]在前

使用相同值初始化这两个模型并进行JSON序列化时，输出结果不同：

print(A(a=[Path("toto")]).model_dump_json())  # 输出: {"a":"[PosixPath('toto')]"}
print(B(a=[Path("toto")]).model_dump_json())  # 输出: {"a":["toto"]}

这一现象源于Pydantic V2的核心序列化机制：

联合类型处理策略：Pydantic在遇到联合类型时，会按照声明顺序依次尝试每个类型的序列化器。
Path类型的序列化：Path类型默认使用简单的字符串序列化方案(core_schema.to_string_ser_schema())，它会直接调用对象的__str__方法。
列表类型的序列化：list[Path]类型则会递归处理列表中的每个元素，对每个Path对象进行单独序列化。

在模型A中，由于Path类型声明在前，Pydantic会首先尝试将整个列表作为Path对象序列化，导致直接调用了列表的__str__方法。而在模型B中，list[Path]类型优先匹配成功，触发了正确的递归序列化逻辑。

这种序列化顺序依赖性会影响以下场景：

Pydantic团队已经意识到这个问题并提交了修复。在修复版本发布前，开发者可以采取以下临时方案：

这个问题提醒我们，在使用现代类型系统的强大功能时，也需要关注其底层实现细节可能带来的微妙差异。理解这些机制有助于开发者构建更健壮的数据处理流程。

登录后查看全文