首页
/ BEIR项目v2.1.0版本发布:全面支持最新嵌入模型评估

BEIR项目v2.1.0版本发布:全面支持最新嵌入模型评估

2025-06-26 20:43:20作者:温玫谨Lighthearted

项目简介

BEIR是一个专注于信息检索系统评估的开源工具库,它为研究人员和开发者提供了标准化的评估框架和数据集。BEIR支持多种检索模型的评估,包括密集检索、稀疏检索以及混合检索方法。该项目通过提供统一的评估接口,极大地简化了不同检索模型在相同数据集上的性能对比工作。

版本核心更新

1. 支持最新嵌入模型评估

BEIR v2.1.0版本最显著的改进是全面支持了当前最先进的嵌入模型评估能力:

HuggingFace模型支持:新增了models.HuggingFace模块,可以轻松评估E5系列模型、使用Tevatron微调的PEFT模型(如RepLLAMA)以及HuggingFace上的任何自定义嵌入模型。该模块支持三种池化技术:均值池化(mean)、CLS池化和EOS池化。

SentenceTransformer增强:更新后的models.SentenceTransformer模块现在支持提示词(prompts)和提示名称(prompt_names)等最新特性,能够评估Stella、modernBERT-gte-base等基于LLM的解码器模型。特别值得一提的是,现在所有sentence-transformer模型都可以在多GPU环境下进行评估。

NVEmbed专用支持:新增models.NVEmbed模块专门用于评估NVIDIA的NV-Embed-v2模型,虽然目前需要特定版本的transformers库配合使用。

LLM2Vec集成:新增models.LLM2Vec模块支持评估McGill-NLP团队开发的LLM2Vec系列跨注意力嵌入模型。

2. 评估工具增强

新版本引入了两个实用的工具函数:

util.save_runfile()函数可将评估结果保存为TREC标准格式的运行文件,这对于后续的重新排序(re-ranking)分析非常有用。

util.save_results()函数则将评估指标(包括nDCG、MAP、Recall、Precision等)保存为JSON格式,便于后续分析和比较。

3. 技术栈升级

项目将Python最低版本要求从3.6升级到了3.9+,采用了更现代的代码格式化工具ruff,并重构了项目结构使用pyproject.toml进行管理。这些改进使项目维护更加规范,代码质量更高。

技术细节解析

模型评估示例

以评估E5-Mistral-7B模型为例,开发者可以这样配置:

query_prompt = "Given a query on respiratory diseases, retrieve documents that answer the query"
passage_prompt = ""
dense_model = models.HuggingFace(
    model="intfloat/e5-mistral-7b-instruct",
    max_length=512,
    append_eos_token=True,
    pooling="eos",
    normalize=True,
    prompts={"query": query_prompt, "passage": passage_prompt},
    attn_implementation="flash_attention_2",
    torch_dtype="bfloat16"
)

对于PEFT模型(如RepLLAMA)的评估,配置也非常直观:

dense_model = models.HuggingFace(
    model="meta-llama/Llama-2-7b-hf",
    peft_model_path="castorini/repllama-v1-7b-lora-passage",
    max_length=512,
    append_eos_token=True,
    pooling="eos",
    normalize=True,
    prompts={"query": "query: ", "passage": "passage: "},
    attn_implementation="flash_attention_2",
    torch_dtype="bfloat16",
)

评估结果保存

新版本简化了评估结果的保存过程:

ndcg, _map, recall, precision = retriever.evaluate(qrels, results, retriever.k_values)
mrr = retriever.evaluate_custom(qrels, results, retriever.k_values, metric="mrr")

results_dir = os.path.join(pathlib.Path(__file__).parent.absolute(), "results")
os.makedirs(results_dir, exist_ok=True)

util.save_runfile(os.path.join(results_dir, f"{dataset}.run.trec"), results)
util.save_results(os.path.join(results_dir, f"{dataset}.json"), ndcg, _map, recall, precision, mrr)

未来展望

根据项目维护者的说明,BEIR的下一个主要更新将包括对ColBERT评估的支持,这将进一步丰富项目的评估能力。ColBERT作为一种高效的后期交互模型,在信息检索领域有着广泛的应用,其加入将使BEIR的评估体系更加全面。

总结

BEIR v2.1.0版本的发布标志着该项目在支持最新嵌入模型评估方面迈出了重要一步。通过简化评估流程、支持更多模型架构、提供更友好的结果保存方式,BEIR继续巩固其作为信息检索评估标准工具的地位。对于从事信息检索研究和应用开发的团队来说,这一更新将极大地提高模型评估的效率和可靠性。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K