Semantic Kernel项目中的向量存储模型重构解析

2025-05-08 17:25:39作者：卓炯娓

背景介绍

在Semantic Kernel项目的Microsoft.Extensions.VectorData(MEVD)组件中，开发团队正在进行一次重要的架构重构，旨在为即将到来的IEmbeddingGenerator集成和NativeAOT支持做准备。这次重构的核心是引入一个统一的向量存储集合模型，以解决当前架构中存在的一系列问题。

当前架构的问题

现有架构中，每个连接器都需要自行处理属性访问，MEVD组件未能提供足够的支持。这导致了一系列问题：

重复实现：每个连接器需要实现两个映射器，一个用于映射用户POCO(通过反射访问属性)，另一个用于映射动态类型(通过字典查找访问属性)。
演进困难：现有架构难以支持新的功能需求：
- 对于NativeAOT支持，需要构建时通过源生成器生成代码，而不是使用反射访问属性
- 对于IEmbeddingGenerator集成，需要将用户的向量属性通过生成器处理后再序列化
职责混乱：VectorStoreRecordPropertyReader类已经从简单的属性访问器演变成了包含各种集合属性信息的"大杂烩"，包含大量列表和映射，导致代码难以维护。

重构方案

新的设计方案引入了VectorStoreModel概念，主要改进包括：

统一模型：将VectorStoreRecordPropertyReader演进为完整的VectorStoreModel，由VectorStoreModelBuilder构建。
简化访问：VectorStoreModel以简洁的属性模型形式暴露所有属性信息。连接器不再需要处理属性名到存储名的转换，而是可以直接从模型获取所需信息。
抽象访问：属性模型提供统一的API来读写属性值(如VectorStoreKeyPropertyModel.GetValueAsObject)，连接器无需关心底层实现细节。
职责分离：创建新的纯连接器面向的属性模型层次结构，与现有的用户面向的类型层次结构分离。

技术实现细节

不可变模型：VectorStoreModel设计为不可变对象，确保线程安全。
构建器模式：使用VectorStoreModelBuilder来构建模型，接受可选的VectorStoreRecordDefinition和CLR类型参数。
渐进式演进：所有连接器面向的类型暂时标记为[Experimental]，为后续演进预留空间。