EmbedChain项目中Azure AI Search向量存储的用户隔离问题解析

2025-05-06 15:51:41作者：平淮齐Percy

在构建基于大语言模型的记忆系统时，数据隔离是一个至关重要的功能特性。本文将以EmbedChain项目中的Azure AI Search向量存储实现为例，深入分析多用户环境下的数据隔离问题及其解决方案。

问题现象

当开发者在EmbedChain项目中使用Azure AI Search作为向量存储后端时，发现一个严重的数据隔离缺陷：不同用户之间的记忆数据会相互覆盖。具体表现为：

用户A添加记忆后，用户B添加记忆时不是创建新记录
系统错误地将用户B的记忆更新到用户A的记录中
最终导致用户A的记忆内容被用户B覆盖

技术背景

在向量数据库应用中，通常需要支持多租户场景。EmbedChain项目通过user_id字段实现用户隔离，理论上每个用户的记忆数据应该完全独立。Azure AI Search作为托管搜索服务，支持向量搜索和结构化数据过滤。

根本原因分析

通过代码审查发现，当前实现存在两个关键问题：

查询-过滤顺序不当
现有实现先执行向量相似度搜索(获取top K结果)，再在内存中进行用户ID过滤。这种设计会导致：
- 可能过滤掉所有结果，即使存在匹配的用户数据
- 返回结果数量可能少于请求的limit值
- 无法保证返回最相关的用户专属结果
索引设计缺陷
当前索引仅包含三个基础字段(id/vector/payload)，而用户ID被存储在payload的JSON结构中。这种设计使得：
- 无法利用Azure Search的原生过滤能力
- 必须完整获取文档后才能进行过滤
- 过滤操作效率低下

解决方案

方案一：优化索引设计

建议修改索引结构，将用户ID提升为顶级字段：

{
    "id": "guid",
    "vector": [...],
    "user_id": "alice",
    "payload": {...}
}

方案二：重构查询逻辑

修改搜索方法，利用Azure Search的filter参数实现服务端过滤：

def search(self, query, limit=5, filters=None):
    vector_query = VectorizedQuery(...)
    filter_expression = f"user_id eq '{filters['user_id']}'" if filters else None
    search_results = self.search_client.search(
        vector_queries=[vector_query],
        filter=filter_expression,
        top=limit
    )
    # 处理结果...