RAG_Techniques项目中向量检索分数归一化的优化实践

2025-05-14 16:03:41作者：舒璇辛Bertina

This repository showcases various advanced techniques for Retrieval-Augmented Generation (RAG) systems. RAG systems combine information retrieval with generative models to provide accurate and contextually rich responses.

项目地址：https://gitcode.com/GitHub_Trending/ra/RAG_Techniques

在信息检索系统中，分数归一化是一个常见且重要的处理步骤。本文将以NirDiamant开发的RAG_Techniques项目为例，深入探讨检索分数归一化过程中遇到的技术问题及其解决方案。

问题背景

在RAG(Retrieval-Augmented Generation)系统中，通常会结合多种检索方法，如向量检索和BM25检索。为了将不同检索方法得到的分数进行融合，需要先对它们进行归一化处理，使其处于相同的数值范围内。

在RAG_Techniques项目中，原始代码使用了以下归一化方法：

vector_scores = 1 - (vector_scores - np.min(vector_scores)) / (np.max(vector_scores) - np.min(vector_scores))
bm25_scores = (bm25_scores - np.min(bm25_scores)) / (np.max(bm25_scores) - np.min(bm25_scores))

这种方法虽然简单直接，但在实际应用中存在一个潜在问题：当所有文档的得分相同时，分母会变为0，导致"除以零"错误。

技术分析

归一化原理

归一化的目的是将不同量纲的数据转换到相同的尺度上。常用的最小-最大归一化公式为：

x' = (x - min) / (max - min)

这种变换会将数据映射到[0,1]区间内。对于向量检索分数，项目中使用1减去归一化值，可能是为了与其他分数保持一致的排序方向。

问题根源

当所有文档的得分完全相同时，max和min值相等，导致分母(max-min)为0。这种情况在实际中虽然不常见，但在以下场景可能出现：

查询与所有文档完全不相关
检索系统出现异常
测试数据过于简单

解决方案

项目采用了添加微小常数(epsilon)的方法来避免除以零错误：

epsilon = 1e-8
vector_scores = 1 - (vector_scores - np.min(vector_scores)) / (np.max(vector_scores) - np.min(vector_scores) + epsilon)
bm25_scores = (bm25_scores - np.min(bm25_scores)) / (np.max(bm25_scores) - np.min(bm25_scores) + epsilon)