Orama搜索库中阈值0的匹配问题分析与解决方案

2025-05-25 20:24:32作者：廉彬冶Miranda

🌌 A complete search engine and RAG pipeline in your browser, server or edge network with support for full-text, vector, and hybrid search in less than 2kb.

项目地址：https://gitcode.com/gh_mirrors/or/orama

问题背景

在使用Orama搜索库时，开发者发现当设置阈值(threshold)为0时，搜索结果并不完全符合预期行为。根据官方文档描述，当threshold设置为0时，应该只返回包含所有搜索关键字的文档。然而在实际使用中，某些情况下搜索结果会包含仅匹配部分关键字的文档。

问题现象

通过一个简单的测试案例可以重现这个问题：索引中包含两个文档，一个较短的文档包含所有搜索关键字，另一个较长的文档只包含部分关键字。当threshold设为0时，理论上应该只返回包含所有关键字的短文档，但实际结果却可能包含长文档。

技术分析

深入分析Orama的搜索算法实现，发现问题出在结果排序和筛选机制上。当前实现中存在两个关键数据结构：

tokenScoresMap：记录每个文档的匹配分数
tokenKeywordsCountMap：记录每个文档匹配的关键词数量

算法假设这两个Map中的数据排序是一致的，即分数高的文档匹配的关键词数量也多。然而实际情况并非总是如此，特别是当文档长度差异较大时，长文档可能因为包含更多匹配词而获得高分，即使它没有匹配所有关键词。

根本原因

问题的核心在于当前实现中：

分别维护分数和关键词数量的Map
基于分数排序后，再根据关键词数量筛选结果
这种分离的数据结构无法保证排序一致性

当文档长度差异较大时，长文档可能因为包含更多匹配词而获得高分，即使没有匹配所有关键词，这导致threshold=0的筛选失效。

解决方案

改进方案是将分数和关键词数量合并到同一个数据结构中：

const tokenScoresMap = new Map();
for(...) {
    const [token, score] = arr[j];
    const boostScore = score * boost;
    const oldScore = tokenScoresMap.get(token)?.[1];
    if (oldScore !== undefined) {
        tokenScoresMap.set(token, [oldScore * 1.5 + boostScore, tokenScoresMap.get(token)[1] + 1]);
    } else {
        tokenScoresMap.set(token, [boostScore, 1]);
    }
}