MTEB项目1.38.30版本发布:修复SNL数据集问题并新增多语言嵌入模型
MTEB(Massive Text Embedding Benchmark)是一个用于评估大规模文本嵌入模型的基准测试框架。该项目旨在为研究人员和开发者提供一个标准化的评估平台,帮助他们比较不同文本嵌入模型在各种自然语言处理任务中的性能表现。通过MTEB,用户可以全面了解模型在检索、分类、聚类等不同场景下的表现。
本次发布的1.38.30版本主要包含两个重要更新:修复了SNL数据集不可用的问题,并新增了三个多语言嵌入模型。
SNL数据集修复
在本次更新中,开发团队重新上传了之前不可用的SNL数据集,解决了issue #2477中报告的问题。SNL数据集是MTEB基准测试中的重要组成部分,用于评估模型在特定领域的表现。此前由于某些技术原因,这些数据集暂时无法访问,影响了部分测试的进行。
开发团队不仅修复了数据集的可用性问题,还对相关测试代码进行了清理,移除了之前为临时解决问题而添加的异常处理代码。这一修复确保了基准测试的完整性和可靠性,使研究人员能够继续使用这些数据集进行模型评估。
新增多语言嵌入模型
本次更新引入了三个来自HIT-TMG的KaLM-embedding多语言模型:
- KaLM-embedding-multilingual-mini-instruct-v1
- KaLM_embedding_multilingual_mini_instruct_v1_5
这些模型的特点是支持指令式嵌入(instruct embedding),即可以根据不同的指令提示生成有针对性的嵌入表示。开发团队为这些模型实现了专门的指令包装器(InstructSentenceTransformerWrapper),支持通过提示字典(prompts_dict)来指定不同的指令格式。
在实现过程中,团队特别关注了指令格式的标准化问题,确保不同模型和任务之间指令格式的一致性。这对于保证评估结果的公平性和可比性至关重要。
其他改进
除了上述主要更新外,本次发布还包括以下改进:
- 更新了任务和基准测试表格,确保文档与代码实现保持同步
- 为GitHub issue模板添加了更详细的描述,帮助用户更清晰地报告问题
- 修复了一些代码格式问题,提高了代码的可读性和可维护性
技术意义
MTEB 1.38.30版本的发布对于文本嵌入领域的研究具有重要意义:
- 数据集完整性的恢复确保了基准测试的全面性和可靠性
- 新增的多语言指令式嵌入模型扩展了评估范围,反映了当前嵌入模型发展的最新趋势
- 指令格式的标准化工作为未来更多指令式嵌入模型的评估奠定了基础
这些改进使MTEB能够更好地服务于文本嵌入领域的研究人员和开发者,帮助他们开发出更强大、更通用的文本表示模型。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
HY-Embodied-0.5这是一套专为现实世界具身智能打造的基础模型。该系列模型采用创新的混合Transformer(Mixture-of-Transformers, MoT) 架构,通过潜在令牌实现模态特异性计算,显著提升了细粒度感知能力。Jinja00
FreeSql功能强大的对象关系映射(O/RM)组件,支持 .NET Core 2.1+、.NET Framework 4.0+、Xamarin 以及 AOT。C#00