Langroid项目中多检索结果融合排序的技术实现

2025-06-25 18:01:03作者：冯爽妲Honey

背景介绍

在Langroid项目的DocChatAgent模块中，文档检索是一个核心功能。系统通过多种检索方法获取相关文档片段，包括语义检索（dense）、稀疏向量检索（sparse-embedding based）、关键词检索（lexical/keyword）以及模糊匹配（fuzzy）等方法。这些方法各自产生带有评分或排序的检索结果，但如何有效地整合这些结果成为一个技术挑战。

问题分析

在现有实现中，当配置了交叉编码器（cross-encoder）模型时，系统会对所有检索方法得到的文档片段进行统一重新排序，然后选取前k个最相关的片段。然而，在没有交叉编码器的情况下，系统只是简单地将所有检索结果合并后直接选取前k个，这可能导致最终选择的文档片段质量不高。

技术解决方案

为了解决这个问题，项目采用了融合排序（fusion ranking）策略，充分利用各种检索方法产生的评分和排序信息。具体实现包括以下关键步骤：

结果归一化处理：将不同检索方法得到的结果统一到相同的"评分空间"，使得不同方法的评分可以相互比较。这通过两种方式实现：
- 基于倒序排名的评分（reciprocal rank）：每个文档片段的评分为1/(rank + c)
- 最小-最大归一化（min-max-normalization）
RRF算法实现：项目通过PR #556实现了倒数排名融合（Reciprocal Rank Fusion, RRF）算法。RRF是一种简单但有效的融合排序方法，它通过将不同检索结果的排名进行倒数加权求和，得到最终的融合评分。
结果选择：在归一化处理后，系统可以根据融合评分选择前k个最相关的文档片段，确保在没有交叉编码器的情况下也能获得高质量的检索结果。