Psycopg中JSON序列化函数的内存泄漏问题分析与解决方案

2025-07-06 05:42:51作者：余洋婵Anita

问题背景

在使用Python的PostgreSQL适配器Psycopg时，开发者可能会遇到一个与JSON序列化相关的内存泄漏问题。这个问题特别容易在使用lambda函数或局部函数作为JSON序列化器时出现。

问题本质

Psycopg内部实现了一个LRU缓存机制来优化JSON序列化函数的性能。当开发者使用set_json_dumps()或set_json_loads()方法设置自定义的JSON序列化/反序列化函数时，Psycopg会将这些函数缓存起来以提高后续调用的效率。

问题出在缓存键的生成方式上：Psycopg使用函数的__qualname__属性作为缓存键的一部分。对于lambda函数或局部函数，每次创建连接时都会生成新的函数对象，即使这些函数在逻辑上是相同的。这导致缓存不断增长，最终引发内存泄漏。

重现场景

以下代码可以重现这个问题：

from psycopg.types.json import set_json_dumps
import psycopg
import json

def connect():
    conn = psycopg.connect("postgresql://user:pass@localhost/db")
    # 使用lambda函数会导致内存泄漏
    set_json_dumps(lambda obj: json.dumps(obj, ensure_ascii=False), conn)
    return conn

def main():
    while True:
        with connect() as conn:
            conn.execute("SELECT 1;")

技术原理分析

Psycopg的JSON类型处理模块内部使用了一个装饰器@lru_cache来缓存适配器函数。当使用lambda函数时：

每次调用connect()都会创建一个新的lambda函数对象
虽然这些lambda函数在功能上完全相同，但它们的对象ID不同
由于__qualname__属性对于lambda函数都是""，Psycopg无法区分它们
导致缓存中不断添加新的条目，而旧的条目无法被回收

解决方案

Psycopg团队已经修复了这个问题，但开发者也可以采取以下最佳实践来避免内存问题：

1. 使用顶层函数

将JSON序列化函数定义为模块级别的函数：

def custom_json_dumps(obj):
    return json.dumps(obj, ensure_ascii=False)

def connect():
    conn = psycopg.connect("postgresql://user:pass@localhost/db")
    set_json_dumps(custom_json_dumps, conn)
    return conn

2. 避免使用lambda或局部函数

不要在内置函数或方法内部定义JSON处理函数：

# 不推荐的做法
def connect():
    def local_dumps(obj):  # 这也是局部函数
        return json.dumps(obj)
    
    conn = psycopg.connect(...)
    set_json_dumps(local_dumps, conn)  # 可能导致内存问题
    return conn

3. 使用常量引用

如果需要多次使用同一个函数，可以使用常量引用：

JSON_DUMPS = lambda obj: json.dumps(obj)  # 不推荐，仍然可能有问题

# 更好的做法
def _json_dumps(obj):
    return json.dumps(obj)

JSON_DUMPS = _json_dumps  # 推荐

总结

在使用Psycopg进行JSON数据处理时，开发者应当注意：

优先使用模块级别的函数作为JSON序列化器
避免在连接函数内部定义lambda或局部处理函数
如果发现内存增长问题，检查是否遵循了上述最佳实践
考虑升级到最新版本的Psycopg以获得更好的内存管理

通过遵循这些指导原则，开发者可以充分利用Psycopg的JSON处理能力，同时避免潜在的内存泄漏问题。

psycopg

New generation PostgreSQL database adapter for the Python programming language

项目地址：https://gitcode.com/gh_mirrors/ps/psycopg

登录后查看全文

Psycopg中JSON序列化函数的内存泄漏问题分析与解决方案

问题背景

问题本质

重现场景

技术原理分析

解决方案

1. 使用顶层函数

2. 避免使用lambda或局部函数

3. 使用常量引用

最新版本改进

总结

热门内容推荐

项目优选

Psycopg中JSON序列化函数的内存泄漏问题分析与解决方案

问题背景

问题本质

重现场景

技术原理分析

解决方案

1. 使用顶层函数

2. 避免使用lambda或局部函数

3. 使用常量引用

最新版本改进

总结

相关内容推荐

热门内容推荐

项目优选