Pyserini项目中MS MARCO v2文档检索的uniCOIL模型支持更新

2025-07-07 08:03:44作者：裘晴惠Vivianne

Pyserini is a Python toolkit for reproducible information retrieval research with sparse and dense representations.

项目地址：https://gitcode.com/gh_mirrors/py/pyserini

在信息检索领域，MS MARCO数据集已成为评估检索系统性能的重要基准。Pyserini作为基于Python的信息检索工具包，持续更新对最新评测任务的支持是其核心功能之一。本文将介绍Pyserini对MS MARCO v2文档检索任务中uniCOIL模型支持的更新情况。

uniCOIL是近年来提出的一种高效的稀疏检索模型，它通过扩展传统BM25的词袋表示，为每个词项分配上下文感知的权重。Pyserini支持两种uniCOIL变体：基础版(noexp)和使用doc2query-T5扩展的版本。这两种模型在TREC 2023深度学习赛道(Deep Learning Track)中表现优异，但最初在Pyserini的文档检索结果汇总页面中缺失相关评测数据。

技术团队在发现问题后，首先确认了底层依赖库Anserini中已包含必要的评测集绑定。具体而言，Qrels评估标准绑定已在Anserini的Qrels.java文件中实现，而查询主题绑定也已在Topics.java中定义。这些基础组件的就位为Pyserini的集成提供了必要条件。

随后，团队通过两个关键步骤完成了这一更新：

在Anserini项目中添加了MS MARCO v2段落检索任务的uniCOIL模型评测结果
在Pyserini项目中同步更新了文档检索任务的对应评测数据

这一更新使得研究人员能够直接在Pyserini中复现uniCOIL模型在MS MARCO v2文档检索任务上的性能表现，包括标准评测指标如nDCG@10等。对于信息检索领域的研究者和实践者而言，这一更新提供了重要的基准参考，特别是在比较传统稀疏检索与新型神经检索方法的性能差异时。

值得注意的是，uniCOIL这类稀疏表示模型因其高效率和在有限计算资源下的良好表现，在实际生产系统中仍具有重要价值。Pyserini对这些模型的支持更新，进一步巩固了其作为信息检索研究实用工具包的地位。

Pyserini is a Python toolkit for reproducible information retrieval research with sparse and dense representations.

项目地址：https://gitcode.com/gh_mirrors/py/pyserini

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。