MiniSearch中基于类目相关性的搜索结果优化策略

2025-06-08 23:45:28作者：霍妲思

背景介绍

在使用MiniSearch这类全文搜索引擎时，我们经常会遇到一个常见的需求：如何让搜索结果中同一类目的文档能够获得相关性提升。这种需求在知识库系统、文档管理系统等场景中尤为常见，因为用户往往希望看到与高相关文档同属一个类目的其他文档。

问题分析

假设我们有以下文档数据集：

文档1：标题"Advanced React"，类目"React"，内容"Performance tips"
文档2：标题"React Basics"，类目"React"，内容"Introduction"
文档3：标题"React vs Vue"，类目"Comparison"，内容"React framework"

当用户搜索"react performance"时，MiniSearch默认的搜索结果排序可能是：

文档1（得分4.6）
文档3（得分1.6）
文档2（得分0.9）

这种情况下，虽然文档2与最高分文档1同属"React"类目，但由于内容相关性较低，排名靠后。从用户体验角度，我们可能希望提升同类别文档的排名。

解决方案

方案一：类目字段加权

最简单的解决方案是对类目字段进行加权处理。在MiniSearch的搜索参数中，我们可以为不同字段设置不同的权重：

miniSearch.search("react performance", {
  boost: {
    title: 2,       // 标题字段权重为2
    category: 1.5   // 类目字段权重为1.5
  }
})

这种方法会让包含搜索关键词的类目获得额外分数提升，从而间接提高同类目文档的排名。优点是实现简单，缺点是提升效果有限且对所有类目一视同仁。

方案二：后处理重排序

更精细化的方案是先获取搜索结果，然后根据最高分文档的类目进行后处理：

let results = miniSearch.search("react performance")

if (results.length > 0) {
  // 获取最高分文档的类目
  const topCategory = results[0].category
  
  // 对同类目文档进行分数提升
  results.forEach((result) => {
    if (result.category === topCategory) {
      result.score *= 1.5  // 提升50%分数
    }
  })
  
  // 重新排序
  results.sort((a, b) => b.score - a.score)
}

这种方法的优势在于：

只提升与最高分文档同类的文档
提升幅度可自定义
逻辑清晰可控

方案三：补充推荐结果

当搜索结果数量较少时，可以考虑补充推荐同类目文档：

let results = miniSearch.search("graph")

if (results.length < 3) {  // 结果较少时
  const topCategory = results[0]?.category
  
  if (topCategory) {
    // 获取同类目所有文档
    const categoryDocs = getAllDocsByCategory(topCategory)
    
    // 过滤掉已显示的结果
    const recommended = categoryDocs.filter(doc => 
      !results.some(r => r.id === doc.id)
    )
    
    // 将推荐结果加入最终结果集
    results = results.concat(recommended)
  }
}