在Sentence Transformers中实现自定义信息检索评估指标

2025-05-13 00:40:50作者：廉彬冶Miranda

背景介绍

Sentence Transformers是一个强大的自然语言处理框架，专门用于生成高质量的句子嵌入。在实际应用中，我们经常需要评估这些嵌入模型在信息检索任务中的表现。框架内置的InformationRetrievalEvaluator类提供了多种标准评估指标，如准确率@k、召回率@k和MRR@k等。

自定义评估需求

在实际业务场景中，开发者常常需要获取更详细的评估数据，例如：

每个查询对应的第一个相关文档在结果中的绝对排名
按不同组别分别计算评估指标
获取更细粒度的排名分布信息

实现方案

扩展评估器类

我们可以通过继承InformationRetrievalEvaluator类并重写其compute_metrics方法来实现自定义评估指标。以下是关键实现步骤：

class CustomInformationRetrievalEvaluator(InformationRetrievalEvaluator):
    def compute_metrics(self, queries_result_list: List[object]):
        # 初始化自定义指标
        min_rank_at_k = {k: [] for k in self.precision_recall_at_k}
        
        # 计算标准指标
        # ... (原有指标计算代码)
        
        # 计算第一个相关文档的排名
        for query_itr in range(len(queries_result_list)):
            top_hits = sorted(queries_result_list[query_itr], 
                            key=lambda x: x["score"], reverse=True)
            query_relevant_docs = self.relevant_docs[query_id]
            
            for k_val in self.precision_recall_at_k:
                rank = k_val  # 默认值，表示未找到相关文档
                for idx, hit in enumerate(top_hits[:k_val]):
                    if hit["corpus_id"] in query_relevant_docs:
                        rank = idx
                        break
                min_rank_at_k[k_val].append(rank)
        
        # 计算平均排名
        for k in min_rank_at_k:
            min_rank_at_k[k] = np.mean(min_rank_at_k[k])
        
        # 返回包含自定义指标的结果
        return {
            **super().compute_metrics(queries_result_list),
            "min_rank@k": min_rank_at_k
        }

按组别评估的实现

对于需要按组别评估的需求，可以采用以下策略：

预先将数据集按组别划分
为每个组别创建独立的评估器实例
分别运行评估并收集结果
合并各组结果进行综合分析

# 假设数据集已按group_id分组
group_results = {}
for group_id, group_data in dataset.groupby('group_id'):
    evaluator = CustomInformationRetrievalEvaluator(
        corpus=group_data.corpus,
        queries=group_data.queries,
        relevant_docs=group_data.relevant_docs
    )
    group_results[group_id] = evaluator(model)

技术细节解析

排名计算的边界情况处理

在计算第一个相关文档的排名时，需要考虑以下边界情况：

相关文档出现在结果列表的前k个位置：记录其实际排名(0到k-1)
相关文档未出现在前k个位置：可以设置为k或特殊值(如-1)
多个相关文档的情况：通常只需记录排名最高的那个

性能优化建议

避免重复计算：在compute_metrics方法中一次性计算所有需要的指标
使用向量化操作：对于大型数据集，尽量使用numpy的向量化计算
并行处理：对于分组评估，可以使用多进程并行处理不同组别

实际应用示例

假设我们有一个问答数据集，包含10万条问题和答案对。我们可以：

按问题类别分组
为每个类别计算MRR@10和平均排名
分析模型在不同类别上的表现差异

# 加载数据集
dataset = load_dataset("qa_dataset")
dataset = dataset.add_column("id", range(len(dataset)))

# 按类别分组评估
category_results = {}
for category in dataset.unique('category'):
    cat_data = dataset.filter(lambda x: x['category'] == category)
    evaluator = CustomInformationRetrievalEvaluator(
        corpus=dict(zip(cat_data['id'], cat_data['answer'])),
        queries=dict(zip(cat_data['id'], cat_data['question'])),
        relevant_docs={qid: {qid} for qid in cat_data['id']}
    )
    category_results[category] = evaluator(model)

总结

通过扩展Sentence Transformers的评估器类，我们可以灵活地获取各种自定义评估指标，满足不同业务场景的需求。这种方法不仅适用于信息检索任务，也可以推广到其他需要细粒度评估的嵌入模型应用中。关键点在于理解评估器的内部工作机制，并根据实际需求进行适当的扩展。

sentence-transformers

State-of-the-Art Embeddings, Retrieval, and Reranking

项目地址：https://gitcode.com/gh_mirrors/se/sentence-transformers

登录后查看全文