pgvectorscale项目中DiskANN索引扫描行数限制问题分析与解决

2025-07-06 12:55:04作者：范垣楠Rhoda

问题背景

在pgvectorscale项目（PostgreSQL向量搜索扩展）中，用户发现使用DiskANN索引时出现了一个关键性能问题：当执行包含过滤条件的向量相似度查询时，索引扫描仅返回51行数据，导致无法获取正确的查询结果。这个问题在特定数据分布场景下尤为明显，特别是当需要跳过大量相关性较高的不匹配记录才能找到真正符合条件的结果时。

问题现象

用户通过构建一个特殊测试数据集重现了该问题。测试数据具有以下特点：

数据被设计为8个明显的聚类，每个聚类包含大量重复或相似记录
查询需要找到第二相关聚类中的记录，需要跳过大量第一聚类的记录
使用默认参数(num_neighbors=50)创建DiskANN索引后，索引扫描仅返回51行
外层查询包含过滤条件时，由于无法获取足够数据，返回结果为空

技术分析

经过深入分析，发现问题根源在于DiskANN索引构建过程中的图连接性。DiskANN作为基于图的近似最近邻搜索算法，其核心是通过构建一个近邻图来组织数据。每个节点存储其最近邻节点信息，搜索时通过图遍历找到近似最近邻。

在默认参数(num_neighbors=50)下构建索引时：

当数据存在明显聚类且聚类内相似度极高时，图结构可能出现"孤岛"现象
初始节点所在的聚类可能与其他聚类连接不足
搜索过程被困在初始聚类中，无法探索其他聚类区域
导致索引扫描提前终止，仅返回有限数量的记录

解决方案验证

开发团队通过多种方式验证并解决了该问题：

参数调整验证：
- 增大num_neighbors参数可缓解问题
- 当num_neighbors≥109时，问题完全解决
- 但这不是根本解决方案，只是临时规避方法
算法优化：
- 改进了图构建过程，确保更好的连接性
- 优化了初始节点选择策略
- 增强了图遍历的鲁棒性
修复效果：
- 修复后索引扫描能返回全部所需记录
- 外层过滤查询能正确获取结果
- 在各种数据分布下表现稳定

实际应用建议

对于使用pgvectorscale的开发者和数据工程师，建议：

对于0.3.0之前版本：
- 创建索引时显式设置num_neighbors≥109
- 监控查询计划，确保索引扫描返回足够行数
升级到0.3.0或更高版本：
- 使用默认参数即可获得良好效果
- 特殊场景仍可调整num_neighbors优化性能
数据建模考虑：
- 避免构建高度重复的向量数据
- 对业务数据进行适当的向量空间分析
- 结合过滤条件设计合理的查询方案

总结

pgvectorscale项目团队通过深入分析DiskANN索引在特定数据分布下的行为，找出了图连接性不足的根本原因，并在0.3.0版本中彻底解决了该问题。这一改进显著提升了在需要跳过大量相关但不匹配记录场景下的查询可靠性，使pgvectorscale在各种业务场景下都能提供稳定的向量搜索性能。

pgvectorscale

Postgres extension for vector search (DiskANN), complements pgvector for performance and scale. Postgres OSS licensed.

项目地址：https://gitcode.com/gh_mirrors/pg/pgvectorscale

登录后查看全文