BEIR项目v2.1.0版本发布:全面支持最新嵌入模型评估
项目简介
BEIR是一个专注于信息检索系统评估的开源工具库,它为研究人员和开发者提供了标准化的评估框架和数据集。BEIR支持多种检索模型的评估,包括密集检索、稀疏检索以及混合检索方法。该项目通过提供统一的评估接口,极大地简化了不同检索模型在相同数据集上的性能对比工作。
版本核心更新
1. 支持最新嵌入模型评估
BEIR v2.1.0版本最显著的改进是全面支持了当前最先进的嵌入模型评估能力:
HuggingFace模型支持:新增了models.HuggingFace模块,可以轻松评估E5系列模型、使用Tevatron微调的PEFT模型(如RepLLAMA)以及HuggingFace上的任何自定义嵌入模型。该模块支持三种池化技术:均值池化(mean)、CLS池化和EOS池化。
SentenceTransformer增强:更新后的models.SentenceTransformer模块现在支持提示词(prompts)和提示名称(prompt_names)等最新特性,能够评估Stella、modernBERT-gte-base等基于LLM的解码器模型。特别值得一提的是,现在所有sentence-transformer模型都可以在多GPU环境下进行评估。
NVEmbed专用支持:新增models.NVEmbed模块专门用于评估NVIDIA的NV-Embed-v2模型,虽然目前需要特定版本的transformers库配合使用。
LLM2Vec集成:新增models.LLM2Vec模块支持评估McGill-NLP团队开发的LLM2Vec系列跨注意力嵌入模型。
2. 评估工具增强
新版本引入了两个实用的工具函数:
util.save_runfile()函数可将评估结果保存为TREC标准格式的运行文件,这对于后续的重新排序(re-ranking)分析非常有用。
util.save_results()函数则将评估指标(包括nDCG、MAP、Recall、Precision等)保存为JSON格式,便于后续分析和比较。
3. 技术栈升级
项目将Python最低版本要求从3.6升级到了3.9+,采用了更现代的代码格式化工具ruff,并重构了项目结构使用pyproject.toml进行管理。这些改进使项目维护更加规范,代码质量更高。
技术细节解析
模型评估示例
以评估E5-Mistral-7B模型为例,开发者可以这样配置:
query_prompt = "Given a query on respiratory diseases, retrieve documents that answer the query"
passage_prompt = ""
dense_model = models.HuggingFace(
model="intfloat/e5-mistral-7b-instruct",
max_length=512,
append_eos_token=True,
pooling="eos",
normalize=True,
prompts={"query": query_prompt, "passage": passage_prompt},
attn_implementation="flash_attention_2",
torch_dtype="bfloat16"
)
对于PEFT模型(如RepLLAMA)的评估,配置也非常直观:
dense_model = models.HuggingFace(
model="meta-llama/Llama-2-7b-hf",
peft_model_path="castorini/repllama-v1-7b-lora-passage",
max_length=512,
append_eos_token=True,
pooling="eos",
normalize=True,
prompts={"query": "query: ", "passage": "passage: "},
attn_implementation="flash_attention_2",
torch_dtype="bfloat16",
)
评估结果保存
新版本简化了评估结果的保存过程:
ndcg, _map, recall, precision = retriever.evaluate(qrels, results, retriever.k_values)
mrr = retriever.evaluate_custom(qrels, results, retriever.k_values, metric="mrr")
results_dir = os.path.join(pathlib.Path(__file__).parent.absolute(), "results")
os.makedirs(results_dir, exist_ok=True)
util.save_runfile(os.path.join(results_dir, f"{dataset}.run.trec"), results)
util.save_results(os.path.join(results_dir, f"{dataset}.json"), ndcg, _map, recall, precision, mrr)
未来展望
根据项目维护者的说明,BEIR的下一个主要更新将包括对ColBERT评估的支持,这将进一步丰富项目的评估能力。ColBERT作为一种高效的后期交互模型,在信息检索领域有着广泛的应用,其加入将使BEIR的评估体系更加全面。
总结
BEIR v2.1.0版本的发布标志着该项目在支持最新嵌入模型评估方面迈出了重要一步。通过简化评估流程、支持更多模型架构、提供更友好的结果保存方式,BEIR继续巩固其作为信息检索评估标准工具的地位。对于从事信息检索研究和应用开发的团队来说,这一更新将极大地提高模型评估的效率和可靠性。
ERNIE-4.5-VL-28B-A3B-ThinkingERNIE-4.5-VL-28B-A3B-Thinking 是 ERNIE-4.5-VL-28B-A3B 架构的重大升级,通过中期大规模视觉-语言推理数据训练,显著提升了模型的表征能力和模态对齐,实现了多模态推理能力的突破性飞跃Python00
unified-cache-managementUnified Cache Manager(推理记忆数据管理器),是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理并持久化推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。Python03
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
Spark-Prover-X1-7BSpark-Prover-X1-7B is a 7B-parameter large language model developed by iFLYTEK for automated theorem proving in Lean4. It generates complete formal proofs for mathematical theorems using a three-stage training framework combining pre-training, supervised fine-tuning, and reinforcement learning. The model achieves strong formal reasoning performance and state-of-the-art results across multiple theorem-proving benchmarksPython00
MiniCPM-V-4_5MiniCPM-V 4.5 是 MiniCPM-V 系列中最新且功能最强的模型。该模型基于 Qwen3-8B 和 SigLIP2-400M 构建,总参数量为 80 亿。与之前的 MiniCPM-V 和 MiniCPM-o 模型相比,它在性能上有显著提升,并引入了新的实用功能Python00
Spark-Formalizer-X1-7BSpark-Formalizer-X1-7B is a 7B-parameter large language model by iFLYTEK for mathematical auto-formalization. It translates natural-language math problems into precise Lean4 formal statements, achieving high accuracy and logical consistency. The model is trained with a two-stage strategy combining large-scale pre-training and supervised fine-tuning for robust formal reasoning.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile015
Spark-Scilit-X1-13B科大讯飞Spark Scilit-X1-13B基于最新一代科大讯飞基础模型,并针对源自科学文献的多项核心任务进行了训练。作为一款专为学术研究场景打造的大型语言模型,它在论文辅助阅读、学术翻译、英语润色和评论生成等方面均表现出色,旨在为研究人员、教师和学生提供高效、精准的智能辅助。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00