首页
/ MTEB项目1.38.30版本发布:修复SNL数据集问题并新增多语言嵌入模型

MTEB项目1.38.30版本发布:修复SNL数据集问题并新增多语言嵌入模型

2025-06-18 22:02:03作者:幸俭卉

MTEB(Massive Text Embedding Benchmark)是一个用于评估大规模文本嵌入模型的基准测试框架。该项目旨在为研究人员和开发者提供一个标准化的评估平台,帮助他们比较不同文本嵌入模型在各种自然语言处理任务中的性能表现。通过MTEB,用户可以全面了解模型在检索、分类、聚类等不同场景下的表现。

本次发布的1.38.30版本主要包含两个重要更新:修复了SNL数据集不可用的问题,并新增了三个多语言嵌入模型。

SNL数据集修复

在本次更新中,开发团队重新上传了之前不可用的SNL数据集,解决了issue #2477中报告的问题。SNL数据集是MTEB基准测试中的重要组成部分,用于评估模型在特定领域的表现。此前由于某些技术原因,这些数据集暂时无法访问,影响了部分测试的进行。

开发团队不仅修复了数据集的可用性问题,还对相关测试代码进行了清理,移除了之前为临时解决问题而添加的异常处理代码。这一修复确保了基准测试的完整性和可靠性,使研究人员能够继续使用这些数据集进行模型评估。

新增多语言嵌入模型

本次更新引入了三个来自HIT-TMG的KaLM-embedding多语言模型:

  1. KaLM-embedding-multilingual-mini-instruct-v1
  2. KaLM_embedding_multilingual_mini_instruct_v1_5

这些模型的特点是支持指令式嵌入(instruct embedding),即可以根据不同的指令提示生成有针对性的嵌入表示。开发团队为这些模型实现了专门的指令包装器(InstructSentenceTransformerWrapper),支持通过提示字典(prompts_dict)来指定不同的指令格式。

在实现过程中,团队特别关注了指令格式的标准化问题,确保不同模型和任务之间指令格式的一致性。这对于保证评估结果的公平性和可比性至关重要。

其他改进

除了上述主要更新外,本次发布还包括以下改进:

  1. 更新了任务和基准测试表格,确保文档与代码实现保持同步
  2. 为GitHub issue模板添加了更详细的描述,帮助用户更清晰地报告问题
  3. 修复了一些代码格式问题,提高了代码的可读性和可维护性

技术意义

MTEB 1.38.30版本的发布对于文本嵌入领域的研究具有重要意义:

  1. 数据集完整性的恢复确保了基准测试的全面性和可靠性
  2. 新增的多语言指令式嵌入模型扩展了评估范围,反映了当前嵌入模型发展的最新趋势
  3. 指令格式的标准化工作为未来更多指令式嵌入模型的评估奠定了基础

这些改进使MTEB能够更好地服务于文本嵌入领域的研究人员和开发者,帮助他们开发出更强大、更通用的文本表示模型。

登录后查看全文
热门项目推荐
相关项目推荐