Pydantic中model_dump方法对自定义类的浅拷贝问题解析

2025-05-09 19:47:25作者：曹令琨Iris

**拥抱数据验证的艺术——Pydantic，Python 3.8+的智能守护者** 🛡️🚀 数据在手，但格式杂乱无章？让Pydantic一展身手！借助类型提示，Pydantic使数据清洗变得优雅而高效，是现代编程的默契伙伴。无论是快速原型还是大型项目，它都能与你的编码习惯无缝对接，提升代码质量和可读性。Pydantic V2全新升级，不仅性能飙升，功能丰富，还能助你平滑过渡旧版本。一键安装，即刻体验数据验证的新境界。想要了解更多，或是贡献一份力量，文档和开源社区等你来探索！👩‍💻👨‍💻🌟

项目地址：https://gitcode.com/gh_mirrors/pyd/pydantic

问题背景

在使用Pydantic V2进行数据模型处理时，开发者发现model_dump方法在处理包含自定义类的模型时存在一个潜在问题。当模型属性中包含自定义类实例时，model_dump生成的字典会保留对原始对象的引用，导致修改dump后的数据会意外改变原始模型中的数据。

问题复现

考虑以下示例代码：

from pydantic import BaseModel

class MyClass:
    def __init__(self, data):
        self.data = data

class Model(BaseModel, arbitrary_types_allowed=True):
    var: MyClass

m = Model(var=MyClass([1, 2, 3]))
md = m.model_dump()
md['var'].data.pop()

print(m.var.data)  # 输出[1, 2]，原始数据被意外修改

在这个例子中，我们对模型进行dump操作后，修改dump结果中的列表数据，结果原始模型中的数据也被同步修改了。

技术原理分析

这种现象的根本原因在于Python的对象引用机制和Pydantic对自定义类型的处理方式：

Python对象引用：Python中的赋值操作默认是传递引用而非创建副本。对于可变对象（如列表、字典等），通过引用修改会直接影响原始对象。
Pydantic的dump机制：对于自定义类型（非Pydantic模型），当arbitrary_types_allowed=True时，Pydantic会直接保留对象引用而非创建深拷贝。这是出于性能考虑的设计选择。
与内置类型的区别：Pydantic对内置类型（如int、str等）和Pydantic模型的处理会创建安全副本，但对任意自定义类型则保持引用。

解决方案

针对这一问题，Pydantic官方推荐了几种解决方案：

1. 使用自定义序列化器

from pydantic import BaseModel, PlainSerializer
from typing import Annotated
from copy import deepcopy

class MyClass:
    def __init__(self, data):
        self.data = data

class Model(BaseModel, arbitrary_types_allowed=True):
    var: Annotated[MyClass, PlainSerializer(lambda x: deepcopy(x))]

m = Model(var=MyClass([1, 2, 3]))
md = m.model_dump()
md['var'].data.pop()

print(m.var.data)  # 输出[1, 2, 3]，原始数据不受影响

这种方法通过为字段指定自定义序列化器，在dump时自动创建深拷贝。

2. 使用model_copy方法

m = Model(var=MyClass([1, 2, 3]))
md = m.model_copy(deep=True).model_dump()
md['var'].data.pop()

print(m.var.data)  # 输出[1, 2, 3]

先创建模型的深拷贝副本，再对副本进行dump操作。

3. 将自定义类转换为Pydantic模型

最佳实践是将自定义类也定义为Pydantic模型：

from pydantic import BaseModel

class MyClass(BaseModel):
    data: list

class Model(BaseModel):
    var: MyClass

m = Model(var=MyClass(data=[1, 2, 3]))
md = m.model_dump()
md['var']['data'].pop()

print(m.var.data)  # 输出[1, 2, 3]