MiniSearch 中如何处理搜索中的停用词问题

2025-06-08 16:23:51作者：廉皓灿Ida

在全文搜索场景中，处理搜索查询中的停用词（如连词、副词等）是一个常见的技术挑战。本文将深入探讨如何在 MiniSearch 这一轻量级全文搜索库中优雅地解决这一问题。

停用词对搜索结果的影响

停用词（Stop Words）是指在自然语言处理中被认为对搜索结果贡献不大的常见词汇，如"and"、"or"、"the"等。这些词汇在文档中出现频率极高，但携带的语义信息较少。

在实际搜索场景中，当用户输入包含停用词的查询时（如"samsung and apple"），这些停用词可能会干扰搜索结果。例如，一个文档可能仅仅因为包含"and"就被错误地匹配，而实际上它与用户查询意图无关。

MiniSearch 的默认行为

MiniSearch 默认使用 BM25+ 排名算法，这是一种基于概率的搜索相关性评分算法。该算法的一个重要特性是会自动降低高频词（如停用词）的权重。在大型文档集合中，这种机制通常能有效减少停用词带来的干扰。

然而，在小型文档集合中（如示例中的3个文档），停用词可能不会表现出足够高的频率差异，导致算法无法自动识别并降低其重要性。这时就需要开发者进行额外处理。

自定义术语处理方案

MiniSearch 提供了 processTerm 配置选项，允许开发者在索引和搜索时对术语进行自定义处理。我们可以利用这一机制来过滤停用词：

// 定义停用词集合
const stopWords = new Set(['and', 'or', 'to', 'in', 'a', 'the']);

// 创建 MiniSearch 实例时配置 processTerm
const miniSearch = new MiniSearch({
  fields: ['name', 'description'],
  processTerm: (term) => {
    // 过滤停用词并统一转换为小写
    return stopWords.has(term) ? null : term.toLowerCase();
  }
});