在Pandas AI中实现Agent对象的Redis持久化存储

2025-05-11 04:13:23作者：郜逊炳

背景介绍

在使用Pandas AI进行数据分析时，Agent对象是核心的工作单元，它封装了数据处理、对话上下文和LLM交互等重要功能。然而，当开发者尝试将Agent对象序列化存储到Redis等持久化存储中时，会遇到"cannot pickle '_thread.RLock' object"等序列化问题。

问题分析

Agent对象包含多个不可序列化的组件，主要包括：

线程锁对象（_thread.RLock）
DuckDB数据库连接（duckdb.duckdb.DuckDBPyConnection）
日志记录器（logger）
处理管道（pipeline）
LLM配置（context.config.llm）
向量存储（vectorstore）
缓存系统（cache）

这些组件在Python中通常包含线程锁、数据库连接或文件句柄等不可序列化的资源，导致直接使用pickle或dill等序列化工具时会失败。

解决方案

包装器模式实现

我们可以采用包装器模式，创建一个AgentWrapper类来专门处理Agent对象的序列化和反序列化问题。这个包装器需要实现以下关键功能：

class AgentWrapper:
    def __init__(self, agent: Agent):
        self.agent = agent

    def __getstate__(self):
        """序列化时移除不可pickle的属性"""
        state = self.__dict__.copy()
        # 移除各种不可序列化的属性
        if hasattr(self.agent.context, 'cache'):
            del self.agent.context.cache
        if hasattr(self.agent, '_vectorstore'):
            del self.agent._vectorstore
        # 其他属性处理...
        return state

    def __setstate__(self, state):
        """反序列化后恢复必要的属性"""
        self.__dict__.update(state)
        # 重新初始化不可序列化的属性
        if self.agent.context.config.enable_cache:
            self.agent.context.cache = Cache()
        # 其他属性恢复...

关键处理步骤

序列化前清理：在__getstate__方法中，需要识别并移除所有不可序列化的属性，包括：
- 缓存系统
- 向量存储
- LLM配置
- 数据库连接
- 线程锁等资源
反序列化后重建：在__setstate__方法中，需要重新初始化这些被移除的属性：
- 根据配置重新创建缓存
- 重新连接向量数据库
- 重新配置LLM
- 重建必要的资源锁
Redis存储集成：提供专门的save_to_redis和load_from_redis方法，封装完整的序列化/反序列化流程：

def save_to_redis(self, key, redis_client):
    """保存到Redis"""
    self.remove_unpicklable()  # 清理不可序列化属性
    serialized_agent = pickle.dumps(self)
    redis_client.set(key, serialized_agent)

@classmethod
def load_from_redis(cls, key, redis_client, llm, vector_store=None):
    """从Redis加载"""
    serialized_agent = redis_client.get(key)
    wrapper = pickle.loads(serialized_agent)
    wrapper.agent = cls.restore_unpicklable(wrapper.agent, llm, vector_store)
    return wrapper.agent