LanceDB中的全文检索索引与行ID不一致问题解析

2025-06-03 10:36:22作者：盛欣凯Ernestine

问题背景

在使用LanceDB进行混合查询时，开发者发现了一个关键问题：当同时使用向量搜索和全文检索(FTS)功能时，结果中会出现重复记录。经过深入分析，发现这是由于Tantivy FTS索引构建时使用了错误的行ID机制导致的。

在LanceDB中，行ID的实际结构是(fragment_id << 32) | row_offset。这意味着：

这种设计允许LanceDB高效地管理大规模数据集的分片。然而，问题出在Tantivy FTS索引的实现上——它错误地假设行ID是连续的，直接从0开始递增，而没有考虑LanceDB实际的ID生成机制。

这一问题主要影响以下场景：

在这些情况下，由于行ID不一致，相同内容会被视为不同记录，导致：

目前LanceDB团队提供了两种解决方案：

临时解决方案：
- 修改重排序器的合并逻辑，使用自定义的Chunk ID而非行ID
- 这种方法可以绕过行ID不一致问题，但需要开发者自行实现
推荐方案：
- 使用新版的本地FTS功能(通过设置use_tantivy=False)
- 新版FTS已经支持词干提取(stemming)等高级功能
- 完全兼容LanceDB的行ID机制