ColPali项目中的多向量评分归一化方法解析

2025-07-08 06:27:14作者：宣利权Counsellor

ColPali是一个基于多模态检索的创新项目，它能够对图像和文本进行联合编码和相似度计算。在实际应用中，开发者经常需要对模型输出的原始评分进行归一化处理，以便更直观地理解相似度结果。

评分机制原理

ColPali的score_multi_vector()方法输出的原始评分是基于查询文本中所有词项与图像区域最大相似度的总和。这种评分机制有几个关键特点：

每个(查询词项,图像区域)对的相似度计算使用点积运算，理论范围在(-1,1)之间
实际应用中，大多数相似度值大于0
最终得分与查询长度直接相关，因为它是所有词项得分的累加

评分归一化挑战

开发者在使用过程中发现，直接使用原始评分存在以下问题：

不同长度查询的评分不可直接比较
评分范围不固定，难以设定统一阈值
模型自动添加的填充标记会影响评分计算

解决方案实现

经过与项目维护者的讨论和实际验证，我们推荐以下归一化方法：

def normalize_scores(batch_queries, scores):
    attention_mask = batch_queries["attention_mask"].cpu()
    query_lengths = attention_mask.sum(dim=1, dtype=torch.float32).unsqueeze(1)
    
    # 避免除以零
    query_lengths[query_lengths == 0] = 1
    normalized_scores = scores / query_lengths
    return normalized_scores