LanceDB混合搜索中分数组合逻辑的Bug分析与修复

2025-06-03 22:42:27作者：戚魁泉Nursing

问题背景

在LanceDB数据库系统(v0.17.1b4版本)的混合搜索功能实现中，发现了一个关于分数组合逻辑的重要问题。混合搜索结合了向量搜索和全文搜索(Full-Text Search, FTS)两种技术，通过线性组合两种搜索结果的分数来提供更精准的搜索结果。

在linear_combination.py文件的merge_result函数中，当合并向量搜索和全文搜索结果时，发现分数组合权重分配不正确。具体表现为：

当只有全文搜索结果而没有对应的向量搜索结果时，系统错误地将全文搜索的倒置分数(inverted_fts_score)作为第一个参数(score1)传递给组合函数
而实际上，第一个参数应该始终代表向量搜索的分数(无论是实际距离还是默认填充值1)
这导致用户指定的向量搜索权重被错误地应用到了全文搜索分数上

混合搜索的核心逻辑是将两种搜索技术的分数进行线性组合。在LanceDB的实现中：

正确的组合公式应为：

最终分数 = 1 - (权重 * 向量分数 + (1-权重) * 全文分数)

但实际实现中，当处理只有全文搜索结果的条目时，错误地将倒置后的全文分数作为第一个参数传递，导致权重分配错误。

这个bug会导致：

该问题已在后续版本中修复(#2035)，主要修正了分数组合时的参数传递逻辑，确保：

对于使用LanceDB混合搜索功能的开发者，建议：

这个修复确保了混合搜索中权重分配的正确性，使开发者能够更精确地控制向量搜索和全文搜索在最终结果中的影响比例。

登录后查看全文