BEIR项目v2.1.0版本发布:全面支持最新嵌入模型评估
项目简介
BEIR是一个专注于信息检索系统评估的开源工具库,它为研究人员和开发者提供了标准化的评估框架和数据集。BEIR支持多种检索模型的评估,包括密集检索、稀疏检索以及混合检索方法。该项目通过提供统一的评估接口,极大地简化了不同检索模型在相同数据集上的性能对比工作。
版本核心更新
1. 支持最新嵌入模型评估
BEIR v2.1.0版本最显著的改进是全面支持了当前最先进的嵌入模型评估能力:
HuggingFace模型支持:新增了models.HuggingFace模块,可以轻松评估E5系列模型、使用Tevatron微调的PEFT模型(如RepLLAMA)以及HuggingFace上的任何自定义嵌入模型。该模块支持三种池化技术:均值池化(mean)、CLS池化和EOS池化。
SentenceTransformer增强:更新后的models.SentenceTransformer模块现在支持提示词(prompts)和提示名称(prompt_names)等最新特性,能够评估Stella、modernBERT-gte-base等基于LLM的解码器模型。特别值得一提的是,现在所有sentence-transformer模型都可以在多GPU环境下进行评估。
NVEmbed专用支持:新增models.NVEmbed模块专门用于评估NVIDIA的NV-Embed-v2模型,虽然目前需要特定版本的transformers库配合使用。
LLM2Vec集成:新增models.LLM2Vec模块支持评估McGill-NLP团队开发的LLM2Vec系列跨注意力嵌入模型。
2. 评估工具增强
新版本引入了两个实用的工具函数:
util.save_runfile()函数可将评估结果保存为TREC标准格式的运行文件,这对于后续的重新排序(re-ranking)分析非常有用。
util.save_results()函数则将评估指标(包括nDCG、MAP、Recall、Precision等)保存为JSON格式,便于后续分析和比较。
3. 技术栈升级
项目将Python最低版本要求从3.6升级到了3.9+,采用了更现代的代码格式化工具ruff,并重构了项目结构使用pyproject.toml进行管理。这些改进使项目维护更加规范,代码质量更高。
技术细节解析
模型评估示例
以评估E5-Mistral-7B模型为例,开发者可以这样配置:
query_prompt = "Given a query on respiratory diseases, retrieve documents that answer the query"
passage_prompt = ""
dense_model = models.HuggingFace(
model="intfloat/e5-mistral-7b-instruct",
max_length=512,
append_eos_token=True,
pooling="eos",
normalize=True,
prompts={"query": query_prompt, "passage": passage_prompt},
attn_implementation="flash_attention_2",
torch_dtype="bfloat16"
)
对于PEFT模型(如RepLLAMA)的评估,配置也非常直观:
dense_model = models.HuggingFace(
model="meta-llama/Llama-2-7b-hf",
peft_model_path="castorini/repllama-v1-7b-lora-passage",
max_length=512,
append_eos_token=True,
pooling="eos",
normalize=True,
prompts={"query": "query: ", "passage": "passage: "},
attn_implementation="flash_attention_2",
torch_dtype="bfloat16",
)
评估结果保存
新版本简化了评估结果的保存过程:
ndcg, _map, recall, precision = retriever.evaluate(qrels, results, retriever.k_values)
mrr = retriever.evaluate_custom(qrels, results, retriever.k_values, metric="mrr")
results_dir = os.path.join(pathlib.Path(__file__).parent.absolute(), "results")
os.makedirs(results_dir, exist_ok=True)
util.save_runfile(os.path.join(results_dir, f"{dataset}.run.trec"), results)
util.save_results(os.path.join(results_dir, f"{dataset}.json"), ndcg, _map, recall, precision, mrr)
未来展望
根据项目维护者的说明,BEIR的下一个主要更新将包括对ColBERT评估的支持,这将进一步丰富项目的评估能力。ColBERT作为一种高效的后期交互模型,在信息检索领域有着广泛的应用,其加入将使BEIR的评估体系更加全面。
总结
BEIR v2.1.0版本的发布标志着该项目在支持最新嵌入模型评估方面迈出了重要一步。通过简化评估流程、支持更多模型架构、提供更友好的结果保存方式,BEIR继续巩固其作为信息检索评估标准工具的地位。对于从事信息检索研究和应用开发的团队来说,这一更新将极大地提高模型评估的效率和可靠性。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00