Lucene项目中的HNSW图构建重复邻居问题分析与修复

2025-06-27 09:11:01作者：明树来

问题背景

在Lucene项目的测试过程中，开发人员发现TestBPReorderingMergePolicy测试用例在运行CheckIndex.testHnswGraph时出现失败。具体错误信息显示，在向量字段"vector"中，节点6978存在重复邻居7004。这个问题最初是在测试BPReorderingMergePolicy时发现的，但深入分析后发现它实际上揭示了HNSW图构建过程中一个潜在的问题。

问题本质

HNSW（Hierarchical Navigable Small World）图是Lucene中用于高效近似最近邻搜索的数据结构。在构建过程中，当图包含多个不连通组件时，Lucene会执行connectComponents操作来连接这些组件。问题就出在这个连接过程中可能会产生重复的邻居节点。

问题复现与分析

开发人员通过简化测试用例发现，这个问题可以在非常简单的场景下复现。只需构建一个包含96个文档的索引，其中文档的向量值交替设置为0和1-9之间的数值，就能在大约5%的情况下触发这个问题。

深入分析后发现，当BPReorderingMergePolicy对文档进行重新排序时，打破了HNSW图构建过程中按文档ID顺序添加文档的隐含假设。这种打破导致connectComponents操作在创建双向链接时不够谨慎，可能会产生重复的邻居节点。

解决方案

开发团队考虑了多种解决方案：

在HnswGraphBuilder.connectComponents中避免创建重复链接：虽然可行，但实现起来效率不高，因为邻居节点未排序，可能需要多次检查。
在写入图时去重：最终选择在Lucene99HnswVectorsWriter.writeGraph方法中处理重复节点。这个位置更合适，因为此时节点已经被排序，去重操作可以高效完成。
调整CheckIndex的严格程度：作为临时措施，可以考虑让CheckIndex对这种情况更宽容，但这不是根本解决方案。