pgvectorscale项目中大规模向量索引构建的内存优化挑战

2025-07-06 11:21:31作者：郦嵘贵Just

在pgvectorscale项目（PostgreSQL的向量扩展）中，当用户尝试为超过10亿条记录创建索引时，会遇到内存使用量线性增长且不受控制的问题。这种现象在构建大规模向量索引时尤为明显，需要深入理解其技术背景和解决方案。

问题现象分析

在实际测试中，当用户执行CREATE INDEX命令构建索引时，特别是并行运行多个索引构建进程时，系统内存消耗会呈现以下特征：

内存以约1MB/秒/进程的速度持续增长
通过pmap工具观察发现，进程的堆内存(heap)区域持续扩大
在1.5亿条记录的索引构建过程中，内存消耗可能达到2TB以上

技术根源探究

经过项目维护者的确认，这一问题主要源于QuantizedVectorCache的实现机制。当前版本中，该缓存组件缺乏有效的LRU（最近最少使用）淘汰策略，导致：

缓存中的数据只增不减
随着索引构建过程的推进，缓存占用内存持续增加
无法自动释放不再需要的缓存数据

解决方案与优化方向

项目团队已经规划了以下改进方案：

实现真正的LRU缓存机制：将QuantizedVectorCache改造为具有容量限制和淘汰策略的缓存系统
并行索引构建支持：通过并行化处理来分散内存压力，同时提高构建效率
内存使用监控与控制：增加内存使用阈值检测，防止内存无限增长

对开发者的建议

对于当前需要处理超大规模向量索引的开发者，可以考虑以下临时方案：

分批构建索引，控制单次处理的数据量
监控系统内存使用情况，设置适当的告警阈值
根据硬件资源限制并发索引构建进程数量

未来展望

pgvectorscale团队已经将这一问题纳入并行索引构建的改进计划中。优化后的版本将能够更好地支持十亿级别向量数据的索引构建，同时保持合理的内存使用效率。这一改进对于大规模向量搜索应用场景尤为重要，将使PostgreSQL在AI和机器学习领域的基础设施支持能力得到显著提升。

pgvectorscale

A complement to pgvector for high performance, cost efficient vector search on large workloads.

项目地址：https://gitcode.com/gh_mirrors/pg/pgvectorscale

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力